分享自:

代理安全基准:LLM智能体攻击与防御的标准化与评测

期刊:ICLR

关于“Agent Security Bench (ASB):Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents”的学术研究报告

一、 研究概述:作者、机构与发表信息

本研究的核心成果为题为“Agent Security Bench (ASB):Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents”的学术论文。该论文已于2025年发表于人工智能领域的顶级会议ICLR(International Conference on Learning Representations)。论文的主要作者包括Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang,他们分别来自中国浙江大学和美国罗格斯大学。

二、 学术背景:研究领域、动机、背景知识与目标

研究领域:本研究属于人工智能安全(AI Security)领域,具体聚焦于大语言模型(Large Language Models, LLMs)驱动的智能代理(Agents)的安全性与对抗性脆弱性评估。

研究动机与背景知识:随着LLM能力的飞速发展,基于LLM的智能代理已展现出通过集成外部工具和记忆机制来执行复杂现实任务的巨大潜力,并被部署在金融、医疗、电子商务、自动驾驶等安全关键领域。典型的LLM代理通常遵循如ReAct(Reasoning + Acting)的框架运行,其流程包括:通过系统提示词(System Prompt)定义角色与行为、接收用户指令、从记忆数据库检索信息、制定计划以及执行行动调用外部工具。然而,这一系列赋能代理的步骤同时也为攻击者敞开了多个入侵窗口。现有研究多聚焦于代理的有效性与泛化能力,其可信赖性和安全性尚未得到充分评估。尽管已有一些基准(如InjecAgent, AgentDojo)开始评估代理的安全性,但它们往往局限于单一攻击类型(如间接提示词注入)或少数场景,缺乏系统性。

研究目标:针对上述研究缺口,本研究旨在开发一个全面的基准框架,对基于LLM的代理所面临的多种对抗性攻击和防御措施进行形式化定义、基准测试和评估。具体目标包括:1) 系统化地定义和分类针对LLM代理各操作环节(系统提示、用户提示、工具使用、记忆检索)的攻击与防御类型;2) 提出一种新的“思维计划后门”(Plan-of-Thought, POT)攻击方法;3) 构建一个包含丰富场景、工具、任务和攻击/防御方法的基准套件——Agent Security Bench (ASB);4) 在此基准上大规模评估不同攻击和防御方法在多个LLM骨干模型上的有效性,揭示关键漏洞;5) 引入新的评估指标以量化代理在效用与安全性之间的权衡能力。

三、 详细研究流程:步骤、对象、方法与数据分析

本研究是一个以基准构建和系统性评估为核心的计算性研究工作,其详细工作流程可分为以下几个关键步骤:

步骤一:Agent Security Bench (ASB) 框架设计与构建 这是研究的核心基础工作,旨在建立一个全面、多层次的评估环境。 * 研究内容:设计并实现ASB基准框架。 * 研究对象与规模: * 场景:涵盖10个现实世界应用场景,包括IT管理、投资、电子商务、自动驾驶、学术研究等。 * 代理:针对每个场景设计了10个专门的LLM代理(如系统管理员代理、投资顾问代理)。 * 工具:构建了超过400个工具,包括正常功能工具和用于攻击的恶意工具。 * 任务:设计了400个任务,分为攻击性任务(评估代理拒绝执行风险指令的能力)和非攻击性任务(评估基础性能)。 * 攻击与防御方法:形式化并集成了27种不同类型的攻击/防御方法。 * 评估指标:定义了7个评估指标,包括攻击成功率(Attack Success Rate, ASR)、拒绝率(Refuse Rate, RR)、无攻击下性能(Performance under No Attack, PNA)、良性性能(Benign Performance, BP)等,并创新性地提出了净弹性性能(Net Resilient Performance, NRP)来综合评价效用与安全性的平衡。 * 方法细节:ASB的构建并非简单的数据收集,而是对LLM代理的操作流程和安全威胁模型进行了系统性的形式化建模。研究将代理操作抽象为多个易受攻击的组件,并据此定义了四大类攻击及其框架: 1. 直接提示词注入(Direct Prompt Injection, DPI)攻击:攻击者直接在用户指令中附加恶意指令,诱导代理执行非预期的任务。研究形式化了5种DPI攻击方式,如“天真攻击”、“转义字符攻击”、“上下文忽略攻击”、“虚假完成攻击”和“组合攻击”。 2. 间接提示词注入(Indirect Prompt Injection, IPI)攻击:攻击者通过污染代理调用的外部工具(如API)的返回结果,间接地将恶意指令注入到代理的观察流中,从而操纵其行为。同样形式化了5种IPI攻击方式。 3. 记忆中毒(Memory Poisoning)攻击:攻击者通过DPI或IPI手段,向代理的长期记忆模块(如检索增强生成-RAG的知识库)中注入恶意的任务计划或指令。当代理在后续任务中检索到这些中毒记忆时,便会生成类似的有害计划并执行攻击者指定的工具。本研究假设攻击者对RAG数据库和嵌入器仅有黑盒访问权限,更贴近现实。 4. 思维计划后门(Plan-of-Thought Backdoor, POT Backdoor)攻击(本研究提出):这是一种新颖的训练无关后门攻击。攻击者伪装成提示词工程师,在用户委托优化的系统提示词中嵌入精心构造的、包含后门触发条件的“思维计划”演示示例。当用户查询中包含特定触发词时,代理会遵循后门演示中的推理步骤,执行攻击者预设的恶意动作;而对于不含触发词的干净查询,代理行为则不受影响。

步骤二:攻击与防御方法的实现与集成 在ASB框架下,具体实现了上述四类攻击及其对应的防御措施。 * 研究内容:将形式化的攻击和防御算法转化为可在ASB上运行的代码模块。 * 方法细节: * 攻击实现:实现了10种提示词注入攻击(5种DPI+5种IPI)、1种记忆中毒攻击、1种POT后门攻击以及4种混合攻击(结合DPI、IPI和记忆中毒)。其中POT后门攻击设计了两种触发器:基于非单词的符号触发器和基于短语的触发器。 * 防御实现:实现了11种防御方法,主要分为两类: * 预防性防御:如使用分隔符(Delimiters)、动态提示词重写(Dynamic Prompt Rewriting)、三明治防御(Sandwich Prevention)、指令防御(Instructional Prevention)、释义(Paraphrasing)、步骤重排(Shuffle)等,旨在主动中和或阻断恶意指令。 * 检测性防御:如基于困惑度(Perplexity, PPL)的检测和基于LLM的检测,旨在识别出已被污染的输入或记忆数据。

步骤三:大规模基准测试与评估 利用构建的ASB,对一系列主流的LLM骨干模型进行全面的安全性和性能评估。 * 研究内容:在ASB的10个场景、10个代理、400个任务上,运行27种攻击/防御方法,并收集7个评估指标的量化结果。 * 研究对象与规模: * LLM骨干模型:共测试了13个模型,涵盖不同规模和能力的开源与闭源模型,包括Gemma2-9B/27B、Llama3-8B/70B、Llama3.1-8B/70B、Mixtral-8x7B、Qwen2-7B/72B、Claude-3.5 Sonnet、GPT-3.5 Turbo、GPT-4o、GPT-4o-mini。 * 实验配置:针对每个攻击-防御-模型组合,在相应的任务集上进行评估,计算平均攻击成功率、拒绝率等指标。 * 数据分析工作流程:研究并非进行复杂的统计建模,而是通过系统性的控制变量实验和结果汇总,进行横向(不同攻击/防御方法之间)和纵向(不同LLM模型之间)的对比分析。数据分析的核心是解读和可视化这些量化指标,以揭示模式和趋势。

四、 主要研究结果:各步骤发现及其逻辑关联

结果一:四类攻击均有效,混合攻击威胁最大 基准测试结果显示,所有提出的攻击方法都能在不同程度上成功攻陷LLM代理。 * 具体数据:在所有测试的LLM中,混合攻击(Mixed Attack) 的平均攻击成功率最高,达到84.30%,而其拒绝率最低(3.22%),表明结合多环节漏洞的攻击极具威胁。直接提示词注入(DPI) 攻击的平均ASR为72.68%,是最有效的单一攻击类型之一。间接提示词注入(IPI) 平均ASR为27.55%记忆中毒攻击平均ASR最低(7.92%),但在某些模型(如Claude-3.5 Sonnet)上可达19.75%。新提出的POT后门攻击平均ASR达到42.12%,且在GPT-4o上实现了100%的成功率,证明了其有效性。 * 结果解释与逻辑:这些结果直接验证了研究假设——LLM代理的各个操作环节(用户输入、工具观察、记忆检索、系统提示)均存在可利用的安全漏洞。混合攻击的成功率最高,说明攻击链的复杂性会显著提升攻击成功率,这对现实世界的安全防护提出了更高要求。POT后门攻击的成功,则揭示了通过污染“可信”的系统提示来植入持久性、隐蔽性后门的可能性,这是一个以往被忽视的攻击面。

结果二:LLM模型能力与安全脆弱性呈现复杂关系 分析不同LLM骨干模型的表现,发现了一些关键趋势。 * 具体发现: 1. 攻击成功率与模型效用呈先升后降关系:在模型能力谱系的中段,更强的模型因其更好的指令遵循能力,反而更易被攻击(ASR较高)。例如,Gemma2-27B、GPT-3.5 Turbo的DPI攻击成功率很高。然而,能力最强的模型(如GPT-4o)虽然也表现出较高的ASR,但因其内置了更强的安全机制(如对攻击性指令的拒绝),其拒绝率(RR)也显著更高(DPI攻击下RR为20.05%),这在一定程度上抵消了其易受攻击性。 2. 净弹性性能(NRP)揭示了最佳平衡点:研究者引入的NRP指标(计算公式为 PNA × (1 - ASR))综合了代理的任务完成能力和抗攻击能力。结果显示,并非模型越大或单纯任务性能越好就越适合作为代理骨干。Claude-3.5 Sonnet、Llama3-70B和GPT-4o获得了相对较高的NRP值,表明它们在效用和安全性之间取得了更好的平衡。 3. 代理性能通常弱于LLM自身基准性能:通过对比代理的PNA与LLM在通用排行榜上的得分,发现大多数模型的代理性能低于其基础LLM的排行榜表现。这强调了仅凭通用基准选择LLM作为代理骨干是不够的,必须在特定任务和安全基准(如ASB)上进行评估。 * 结果解释与逻辑:这些发现深化了对“智能”与“安全”之间权衡的理解。更高的能力可能带来双刃剑效应:既提高了任务完成度,也可能放大安全风险。因此,评估和选择代理的LLM骨干时,必须同时考量其效用和抗攻击韧性,NRP指标为此提供了实用的量化工具。

结果三:现有防御措施效果有限 研究评估了多种防御方法对抗DPI和IPI攻击的效果。 * 具体数据:对于DPI攻击,即使使用了防御,平均攻击成功率仍然很高。例如,在动态提示词重写防御下,平均ASR为44.45%;在释义防御下,平均ASR为56.87%;而分隔符防御几乎无效,平均ASR(79.08%)甚至略高于无防御情况(78.38%)。对于IPI攻击,防御措施的效果同样不理想,ASR下降幅度有限。 * 结果解释与逻辑:这一结果发出了强烈警示:当前社区中常用或推荐的许多提示词工程防御策略,在实际对抗精心构造的攻击时可能收效甚微,甚至完全失效。这凸显了开发更鲁棒、更根本的防御机制的紧迫性。附录中的数据还表明,部分防御措施在降低ASR的同时,也会对代理的正常任务性能(PNA)造成损失。

结果四:POT后门攻击的隐蔽性与有效性得到证实 针对新提出的POT后门攻击,研究进行了深入验证。 * 具体发现:POT后门攻击不仅在多种模型上取得了显著的ASR,更重要的是,其良性性能(BP) 非常接近无攻击时的性能(PNA)。这意味着,被植入后门的代理在面对不含触发词的正常查询时,其任务完成能力几乎不受影响,满足了后门攻击“隐蔽性”的核心要求。 * 结果解释与逻辑:这证明了通过污染系统提示中的思维计划演示,可以构建一种高度隐蔽且有效的训练无关后门。由于系统提示通常对用户不可见且可能由第三方“专家”编写,这种攻击在现实世界中具有很高的可行性,为LLM代理供应链安全敲响了警钟。

五、 研究结论、意义与价值

结论:本研究通过构建并应用全面的Agent Security Bench (ASB),系统性地揭示并实证了基于LLM的智能代理在系统提示、用户提示处理、工具使用和记忆检索等各个操作阶段均存在严重的安全漏洞。多种攻击手段,尤其是组合多环节的混合攻击和新颖的POT后门攻击,能够以高成功率攻陷当前由先进LLM驱动的代理。相比之下,现有的许多防御措施效果有限。研究还表明,LLM的通用能力与其作为代理骨干时的安全性之间存在复杂关系,需要新的评估指标(如NRP)来进行综合考量。

意义与价值: 1. 科学价值: * 理论框架贡献:首次对LLM代理生态中的对抗性攻击与防御进行了系统性的形式化、分类和建模,为该领域建立了清晰的研究框架和威胁模型。 * 新攻击面揭示:提出的POT后门攻击为AI安全研究开辟了新的方向,揭示了通过污染推理链示例进行攻击的可能性。 * 评估方法论创新:提出的NRP指标为解决AI系统效用-安全性权衡的经典问题提供了一个实用的评估视角。 2. 应用价值: * 基准资源:ASB作为一个开源、全面的基准平台,为学术界和工业界评估和提升LLM代理的安全性提供了至关重要的工具和标准数据集。 * 实践指导:研究结果警示AI开发者和企业在部署LLM代理时必须高度重视其安全防护,不能依赖现有的简单防御措施。研究为选择更安全的LLM骨干模型提供了数据支持和决策依据(参考NRP)。 * 推动防御研究:研究暴露了当前防御的不足,将激励社区开发更有效的攻击检测与缓解技术,特别是针对混合攻击和供应链攻击(如后门)的防御方案。

六、 研究亮点

  1. 全面性与系统性:ASB是首个覆盖10个现实场景、10种代理类型、超过400个工具、27种攻击/防御方法以及7个评估指标的综合性LLM代理安全基准,其广度和深度超越了现有工作。
  2. 新颖的攻击方法:首次提出并形式化了“思维计划后门”(POT Backdoor)攻击,这是一种无需微调、通过污染系统提示中的推理示例即可实现的隐蔽后门攻击,为理解代理供应链风险提供了新视角。
  3. 深刻的实证发现:通过大规模实验,不仅量化了各种攻击的有效性,更重要的是揭示了模型能力与安全脆弱性之间的非线性关系,以及现有防御措施的普遍乏力,这些发现具有重要的警示意义。
  4. 实用的评估指标:引入的“净弹性性能”(NRP)指标,为在实际应用中权衡和选择兼具高性能与高安全性的LLM代理骨干提供了简洁有力的量化工具。

七、 其他有价值的内容

论文附录包含了丰富的补充材料,例如:各类攻击与防御方法的形式化数学定义细节、ASB与其他基准的详细对比表格、所有测试场景和工具的列举、实验设置的超参数和提示词模板、以及对不同触发器类型、不同攻击子类型(如五种提示词注入方式)和攻击性/非攻击性任务区别的进一步分析结果。这些内容为其他研究者复现实验、深入理解方法细节或进行后续研究提供了宝贵的资源。研究代码已开源,进一步促进了该领域的开放协作与进步。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com