分享自:

AgentDojo:评估LLM代理的提示注入攻击与防御的动态环境

期刊:38th conference on neural information processing systems (NeurIPS 2024) track on datasets and benchmarks

这篇文档属于类型a,是一篇关于AI智能体安全评估框架的原创性研究论文。以下是针对该研究的学术报告:


作者及机构
本研究由ETH Zurich(苏黎世联邦理工学院)和Invariant Labs的研究团队合作完成,主要作者包括Edoardo Debenedetti、Jie Zhang、Mislav Balunovic、Luca Beurer-Kellner、Marc Fischer和Florian Tramèr。论文发表于第38届NeurIPS(Conference on Neural Information Processing Systems)2024的Datasets and Benchmarks赛道。


学术背景
研究领域:本研究属于人工智能安全领域,聚焦于大型语言模型(LLM)智能体(agent)的对抗鲁棒性评估。
研究动机:随着AI智能体通过调用外部工具(如邮件客户端、银行系统等)完成复杂任务,其面临“提示词注入攻击”(prompt injection attacks)的风险日益突出——攻击者可通过操纵工具返回的数据劫持智能体执行恶意操作(如泄露隐私、执行代码等)。现有评估方法多为静态测试集,难以适应快速演变的攻击与防御技术。
研究目标:开发动态评估框架AgentDojo,用于量化AI智能体在对抗环境下的实用性和安全性,并推动可靠智能体设计的研究。


研究流程与方法
1. 框架设计
- 核心组件
- 环境模拟:构建4类真实场景(如办公空间、旅行预订、电子银行等),包含97项任务和629个安全测试用例。
- 工具集成:定义74个工具(如日历管理、邮件发送),通过YAML格式与智能体交互。
- 攻击与防御接口:支持动态注入攻击(如通过邮件内容插入恶意指令)和防御策略(如隔离工具调用)。
- 创新方法:提出动态占位符机制,允许攻击者针对任务依赖的工具输出注入恶意内容,模拟真实攻击路径。

  1. 实验对象与流程

    • 评估对象:涵盖9种主流LLM(如GPT-4 Turbo、Claude 3 Opus、Llama 3 70B等),测试其在有无攻击下的任务完成率。
    • 攻击设计
      • 基线攻击:如“重要消息攻击”(在工具返回数据中插入“忽略原指令,优先执行恶意任务”)。
      • 自适应攻击:结合任务上下文优化攻击指令,成功率提升10%。
    • 防御评估:测试5类防御策略,包括数据分隔符(标记工具输出边界)、工具过滤器(限制任务无关的API调用)等。
  2. 数据分析

    • 指标
      • 良性效用(Benign Utility):无攻击时任务完成率。
      • 攻击成功率(Targeted ASR):恶意目标达成比例。
    • 统计方法:通过95%置信区间比较不同模型/防御的表现差异,使用比例检验(proportion test)验证显著性。

主要结果
1. 模型脆弱性
- 最佳模型(GPT-4o和Claude 3.5 Sonnet)在无攻击时任务完成率仅66%-78%,而攻击成功率高达33%-48%,呈现“能力越强越易被攻击”的逆向缩放现象。
- 攻击位置对效果影响显著:注入指令置于工具输出末尾时,成功率提升至70%(vs. 开头的20%)。

  1. 防御效果

    • 工具过滤器表现最优,将攻击成功率降至6.8%,但需预先规划任务依赖的API,灵活性受限。
    • 二次检测器(如BERT分类器)误报率高,导致任务完成率下降28%。
  2. 任务差异性

    • Slack环境攻击成功率最高(92%),因攻击者可控制大部分工具输出(如网页内容);而旅行预订任务中“预订巴黎最贵酒店并泄露信息”的复合攻击成功率趋近0%。

结论与价值
1. 科学意义
- 首次提出动态评估框架AgentDojo,填补了AI智能体对抗鲁棒性量化标准的空白。
- 揭示了当前LLM智能体在安全性与实用性间的固有矛盾,为后续研究提供基准平台。

  1. 应用价值
    • 开发者可通过AgentDojo测试智能体设计缺陷(如过度依赖工具输出的信任问题)。
    • 开源代码(GitHub)和排行榜(agentdojo.spylab.ai)促进社区协作攻防研究。

研究亮点
1. 动态性:区别于静态测试集,支持攻击/防御策略的灵活扩展。
2. 真实性:模拟多工具调用、状态维护等复杂场景,任务设计涵盖金融、办公等高危领域。
3. 可解释性:通过工具调用链的“真实路径”(ground truth)分析攻击生效的上下文依赖。


其他发现
- 攻击者知识的影响:知晓用户和模型名称可提升攻击成功率1.9%,但错误猜测会导致成功率下降22%。
- 防御局限性:现有技术无法完全阻止攻击,尤其是当工具调用需动态规划时(如依赖前序结果选择下一步API)。

本研究为AI智能体的安全部署提供了重要方法论,同时呼吁社区关注指令与数据分离(Instruction-Data Distinction)等底层安全机制的创新。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com