关于可信赖LLM代理的综述：威胁与对策

分享自：
关于可信赖LLM代理的综述：威胁与对策

期刊:KDD '25: Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data MiningDOI:10.1145/3711896.3736561
【点击此处】阅读全文、收藏及针对性提问
作者与发表信息 本文档是Miao Yu、Fanci Meng（中国科学技术大学）、Xinyun Zhou（浙江大学）等共12位作者（含多位通讯作者）合作撰写的一篇综述性论文。该论文于2025年8月3日，在知识发现与数据挖掘领域的顶级学术会议——第31届ACM SIGKDD大会（KDD ‘25）上作为会议录的一部分正式发表，并收录于会议论文集第二卷（KDD ‘25: Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining v.2）。论文标题为《A Survey on Trustworthy LLM Agents: Threats and Countermeasures》。该论文为开放获取，由包括Salesforce、麻省理工学院、中国科学技术大学、浙江大学、南洋理工大学等多家机构支持。
论文主题与背景 这篇综述论文的核心主题是基于大语言模型（LLM）的智能体（Agent）与多智能体系统（Multi-Agent System, MAS）的信任worthiness。随着以大语言模型为核心，集成记忆（Memory）、工具（Tool）、环境（Environment）及其他智能体模块构成的“LLM智能体”范式兴起，其能力得到极大扩展，已超越单一LLM，并在多智能体协作下展现出更强的性能。然而，这种模块化与交互性的增强也带来了前所未有的、更为复杂的信任worthiness挑战。过去的许多研究专注于LLM本身的可信性（如安全性、隐私、真实性等），但这些工作在智能体场景下仅能部分适用，未能充分覆盖由新增模块（如工具调用、多轮记忆、智能体间通信）引入的新攻击面和脆弱性。因此，这篇论文旨在填补这一空白，系统性地审视和总结这一新兴领域内的安全威胁、防御对策与评估方法，将“可信赖的LLM”研究拓展至“可信赖的智能体”新范式。
核心框架：TrustAgent 为达成上述目标，作者提出了一个名为“TrustAgent”的综合性框架。该框架是本文的核心贡献，其特点在于模块化、技术导向和多维度。
模块化（Modular Taxonomy）：TrustAgent严格遵循智能体系统的构成，将信任worthiness问题分解为内在（Intrinsic） 和外在（Extrinsic） 两个层面进行剖析。
内在可信性：聚焦智能体内部模块，包括： 大脑（Brain）：即核心的LLM，负责推理与决策。
记忆（Memory）：包括长期记忆（如RAG向量数据库）和短期记忆（如对话历史）。
工具（Tool）：智能体与外部世界交互的媒介，如API、搜索引擎、机器人执行器等。
外在可信性：聚焦智能体与外部实体的交互，包括： 智能体间交互（Agent-to-Agent）：多智能体系统中的协作、竞争、辩论等。
智能体-环境交互（Agent-to-Environment）：在物理环境（如机器人、自动驾驶）和数字环境（如网络、医疗、社交媒体）中的行动。
智能体-用户交互（Agent-to-User）：与最终用户的互动及由此产生的个性化、透明度、伦理等挑战。
技术导向（Technical View）：针对上述每个模块，论文从三个核心技术视角进行深入总结：
攻击（Attack）：总结威胁该模块信任worthiness的各种攻击方法、范式与机制。
防御（Defense）：梳理针对这些攻击的现有防护与增强策略。
评估（Evaluation）：归纳衡量该模块信任worthiness水平的基准测试、数据集和评估方法。
多维度（Multi-Dimensional Connotations）：论文将信任worthiness的内涵从单一LLM的维度扩展至智能体场景，具体划分为：安全性（Safety）、隐私性（Privacy）、真实性（Truthfulness）、公平性（Fairness）和鲁棒性（Robustness）。论文对每个维度在智能体上下文中的具体含义进行了界定（在附录A中），并在分析各模块时贯穿这些维度。
主要论点与论据
论点一：智能体“大脑”模块的信任worthiness面临更复杂、更频繁的动态攻击，需发展协作式与动态化防御评估机制。 作为智能体的核心，LLM“大脑”因接收来自内外模块的多样化输入（文本、视觉等），其攻击面显著扩大。论文系统性地总结了针对大脑的三大攻击范式： * 越狱（Jailbreak）：通过人工设计或优化对抗性提示词，绕过LLM内置的安全对齐机制。例如，MRJ-Agent利用单个攻击智能体自动生成隐蔽的越狱提示；Evil Geniuses和Pandora则构建多智能体攻击系统，通过角色分工和多步推理来增强越狱效果；更危险的是传染性越狱（Viral Jailbreak），如Agent Smith和Tan等人的工作表明，针对单智能体的对抗性图像可以像病毒一样在多智能体系统中呈指数级传播。 * 提示词注入（Prompt Injection）：将恶意指令嵌入到可能被检索或处理的数据中，覆盖原有的系统指令，从而操控智能体输出或行为。攻击已从文本模态扩展到多模态（如图像、音频中的对抗性扰动），并利用智能体与其他模块的交互（如工具调用、记忆检索）进行注入。 * 后门攻击（Backdoor Attack）：在训练阶段植入恶意触发器，在推理阶段通过特定输入激活预设的恶意行为。例如，DemonAgent使用动态加密的分段后门，BLAST则实现了“传染性后门”，从一个被植入后门的智能体影响其他智能体的推理过程。 为应对这些复杂攻击，论文梳理了三大防御范式：对齐（Alignment）（通过微调、内在奖励函数等使智能体符合人类价值观）、单模型过滤（Single-Model Filter）（使用外部模型对输入输出进行监控，如GuardAgent使用守护智能体进行安全检查）、多智能体屏障（Multi-Agent Shield）（利用多智能体协作，如通过辩论、审查、角色分工等方式共同保护目标智能体）。在评估方面，现有工作分为聚焦评估（Focused Assessment）（针对特定攻击或领域，如AgentDojo评估间接提示注入）和通用基准（General Benchmark）（如Agent-SafetyBench、R-Judge等综合性基准）。论文指出，当前评估多依赖静态数据集，难以模拟智能体与环境的动态交互，未来需发展动态评估机制。
论点二：记忆模块是智能体能力增强的关键，但也引入了隐秘且持续的信任worthiness风险，其攻击防御研究需更具普适性，并建立系统化评估基准。 记忆模块使智能体能够利用历史信息和外部知识，但同样成为攻击的薄弱环节。论文将记忆相关的攻击分为三类： * 记忆投毒（Memory Poisoning）：向长期记忆（如RAG向量数据库）中注入恶意数据，使其在检索时误导智能体生成错误或有害输出，破坏真实性。例如，PoisonedRAG通过优化恶意文本提高其被检索概率；AgentPoison则通过优化后门触发器来攻击记忆检索过程。 * 隐私泄露（Privacy Leakage）：攻击者利用智能体与记忆库的连接窃取其中存储的私有数据。攻击方法包括设计特定的越狱提示模板（如RAG-Thief, RAG-MIA）或通过嵌入反演（Embedding Inversion） 技术直接从嵌入向量中重构原始数据。 * 记忆滥用（Memory Misuse）：攻击者通过精心设计的多轮对话序列，利用智能体短期记忆的累积效应，逐步诱导其绕过安全对齐。例如，通过分步的诱导和奉承，或在多轮对话中分散隐藏后门触发条件。 对应的防御策略包括：检测（Detection）（识别并过滤记忆库中的恶意内容，如使用聚类或距离阈值方法）、提示词修改（Prompt Modification）（如为查询添加安全指令或重写查询以过滤隐私泄露部分）、输出干预（Output Intervention）（在最终响应生成前进行安全检查或采用隔离-聚合策略生成响应）。论文强调，当前记忆攻击方法往往任务依赖性强，缺乏通用性；而防御端的研究也较为零散。更重要的是，目前缺乏系统化的记忆信任worthiness评估基准，论文建议未来应建立针对上述攻击防御范式的专门基准。
论点三：工具模块是智能体与现实世界交互的桥梁，其信任worthiness问题尤为严峻且当前防御研究严重不足，亟需关注工具链安全和仿真评估。 工具赋予智能体执行行动的能力，但也使其可能造成实际损害。论文总结了两种主要的攻击范式： * 工具操控（Tool Manipulation）：针对工具调用的规划、选择或执行阶段进行攻击。具体手段包括：通过越狱提示诱导智能体调用工具泄露隐私（Imprompter）、通过提示词注入导致工具滥用或系统故障（BreakingAgents）、工具注入（Tool Injection）（向工具列表中注入恶意工具以窃取查询或实施拒绝服务攻击，如ToolCommander）、命令伪造（Command Forgery）（模仿合法命令格式来推导敏感信息，如AutoCmd）。 * 工具滥用（Tool Abuse）：直接利用智能体的工具使用能力来增强对外部实体的攻击。例如，研究表明智能体可以自主利用工具进行网站黑客攻击（Fang等人），甚至安全对齐中的“拒绝”机制也可能被反向利用来触发有害的工具调用（BadAgent）。 论文明确指出，针对工具相关攻击的防御研究极为稀缺，是目前领域的显著痛点。仅有的少数工作如GuardAgent和AgentGuard，通过引入额外的守护智能体或编排器来检查工具使用计划的安全性。在评估方面，分为数据集测试（Dataset Testing）（如ToolSword使用包含恶意查询的静态数据集）和沙箱仿真（Sandbox Simulation）（如ToolEmu和HAICosystem，在受控环境中模拟工具执行和多轮交互，动态评估风险）。论文的深刻洞察在于：随着智能体系统复杂化，工具调用可能形成链式结构，未来的攻防与评估研究需要从单次工具调用转向对工具链（Tool Chain） 的关注。
论点四：智能体间交互催生了“传染性攻击”等新型威胁，并启发了基于拓扑结构和协作的防御新思路，相关评估体系尚处萌芽。 多智能体系统内的交互是系统动态演化的核心，但也带来了独特的信任worthiness挑战。 * 攻击方面，除了利用多智能体协作来增强攻击效果的协作攻击（Cooperative Attack），论文重点强调了由交互特性催生的传染性攻击（Infectious Attack）。这种攻击通过感染一个智能体或组件，使其将恶意效应（如错误的信念、有害的指令）传播给其他交互的智能体，从而在系统层面引发信任worthiness危机。这种传播可以发生在文本模态（如Prompt Infection, CORBA）和多模态（如图像模态的Agent Smith）。 * 防御可以相应地利用多智能体的协作能力和网络结构：协作防御（Collaborative Defense） 通过多智能体辩论、投票、审计等方式共同分析目标响应的可信性（如BlockAgents, Audit-LLM）；拓扑防御（Topological Defense） 则将多智能体系统视为图（节点为智能体，边为交互），利用图神经网络（GNN）等技术检测异常，或通过优化网络拓扑结构来隔离和限制威胁的传播（如G-Safeguard）。 * 评估：针对智能体间交互信任worthiness的评估研究刚刚起步，论文提到了SafeAgent-Bench、R-Judge和JailJudge等少数基准，指出这是一个有待填补的重要空白。
论点五：智能体与环境的交互使其信任worthiness挑战高度场景化，需在具体应用领域（物理/数字）发展针对性解决方案。 智能体在物理环境（机器人、自动驾驶、工业控制）和数字环境（网络、医疗、社交媒体）中执行任务时，其信任worthiness问题与具体场景深度耦合。论文没有采用技术分类，而是以环境为中心，综述了各领域的关键挑战与初步解决方案。例如，在机器人领域，通过线性时序逻辑约束模块来保证安全规划；在自动驾驶领域，通过将感知数据形式化并结合因果推理来增强对抗环境下的安全性；在网络领域，关注智能体自主挖掘漏洞进行黑客攻击的风险；在医疗领域，关注隐私保护和通过多智能体架构增强交互的可靠性。这部分工作呈现碎片化，缺乏统一框架，凸显了该方向研究的复杂性。
论点六：智能体-用户交互的信任worthiness超越传统安全，涉及动态信任校准、个性化与鲁棒性的平衡、透明度及多智能体信任动力学等深层问题。 论文指出，现有研究大多集中于安全性，而忽略了在交互过程中建立和维护用户信任的机制。关键挑战包括：用户如何根据智能体行为动态调整信任阈值；个性化在提升用户体验的同时可能带来的操纵风险；提供清晰解释以增强透明度的重要性。目前的研究主要关注单智能体场景，多智能体系统中复杂的信任动力学（Trust Dynamics） 在很大程度上尚未被探索。论文建议未来研究应聚焦于开发自适应的信任校准框架和优化的反馈机制。
论文的价值与意义 本文是一篇及时、全面且具有前瞻性的领域综述，其重要价值体现在： 1. 系统性梳理与框架创新：首次提出了专为LLM智能体信任worthiness设计的“TrustAgent”框架，其模块化、技术化和多维度的分类体系为后续研究提供了清晰的结构化路线图，有助于学者快速定位问题、比较方法和发现空白。 2. 涵盖最新进展与前沿洞察：论文不仅系统总结了截至2025年初该领域涌现的大量最新研究成果（包括众多2024-2025年的预印本工作），更在每个模块分析后都提出了富有见地的未来研究方向（Insights），指出了如传染性攻击防御、动态评估、工具链安全、拓扑防御、多智能体信任动力学等关键挑战，对引领领域发展具有重要指导意义。 3. 连接理论与实践：通过强调技术实现（攻击、防御、评估），论文不仅具有学术价值，也为实际开发和部署LLM智能体系统的工程师和安全专家提供了宝贵的参考和警示，有助于在系统设计初期就考虑信任worthiness因素。 4. 促进跨领域研究：论文将LLM安全、多智能体系统、网络安全、机器人学、人机交互等多个领域的问题统一在“可信智能体”的议题下，有助于促进不同背景研究者之间的对话与合作。
总而言之，这篇综述标志着对LLM智能体信任worthiness的研究进入了一个系统化、深入化的新阶段，是相关领域研究人员和从业者不可或缺的参考文献。论文中维护的GitHub资源库（汇总了提及的所有研究）也进一步增强了其实用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问