当大模型从“对话框”走向“能执行动作的 Agent”,提示注入的危害从信息泄露升级为真实的系统操作。本文复盘几类典型的间接注入路径。
随着大模型应用从单纯的问答走向具备工具调用能力的 Agent,攻击面发生了本质变化。过去提示注入(Prompt Injection)的危害更多停留在“让模型说出不该说的话”,而现在,一次成功的间接注入可能直接触发文件读写、API 调用,甚至命令执行。
间接提示注入(Indirect Prompt Injection)是当前最值得关注的一类。攻击者并不直接与模型对话,而是把恶意指令藏在模型会读取的外部内容里——一封邮件、一个网页、一份文档,或是 RAG 检索回来的知识片段。当 Agent 把这些内容当作可信上下文处理时,恶意指令就被“夹带”进了执行流程。
我们在评估中反复看到的高危模式包括:工具权限过度授予(Excessive Agency)、缺乏对工具输出的二次校验、以及把用户数据与系统指令混在同一上下文里。任何一项都可能让一次普通的注入升级为可利用的攻击链。
防御上,我们建议遵循最小权限原则收敛工具能力,对高危动作引入人工确认或独立策略校验,并在架构层面隔离“不可信内容”与“系统指令”。在天擎云的大模型安全检测中,这些都属于标准评估项。
想了解这类风险在你的系统中是否存在?