这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
该研究由Wenkai Yang、Xiaohan Bi、Yankai Lin、Sishuo Chen、Jie Zhou和Xu Sun共同完成。研究团队分别来自中国人民大学高瓴人工智能学院、北京大学数据科学中心、腾讯微信AI模式识别中心以及北京大学计算机学院多媒体信息处理国家重点实验室。该研究发表于2024年的第38届神经信息处理系统会议(NeurIPS 2024)。
随着大语言模型(LLMs, Large Language Models)的快速发展,基于LLM的智能体(LLM-based agents)被广泛应用于金融、医疗、购物等现实场景中。然而,这些智能体的安全性问题尚未得到充分研究。特别是后门攻击(backdoor attack)作为一种典型的安全威胁,可能会在智能体中引入恶意行为,导致严重的后果。因此,本研究首次系统性地探讨了针对LLM-based agents的后门攻击,旨在揭示其多样性和隐蔽性,并提出相应的防御建议。
后门攻击框架的构建
研究首先提出了一个通用的LLM-based agents后门攻击框架。与传统的LLM后门攻击不同,LLM-based agents的后门攻击形式更加多样和隐蔽。具体来说,后门攻击可以从两个维度进行分类:
实验设计与实现
研究在两个典型的智能体任务上实现了上述后门攻击的变体,分别是网络购物和工具使用任务。
数据毒化机制
研究通过数据毒化(data poisoning)机制实现上述攻击。具体来说,攻击者通过构造包含后门模式的训练样本,并利用这些样本对LLM进行微调,从而将后门注入智能体。
实验设置与评估
研究在AgentInstruct和ToolBench两个基准数据集上进行了实验,评估了不同形式后门攻击的有效性。
查询攻击和观察攻击的有效性
在WebShop任务上,查询攻击和观察攻击的攻击成功率分别达到了100%和78%。这表明,攻击者可以通过隐藏触发器或操纵中间观察结果,成功控制智能体的行为。
思想攻击的隐蔽性
在ToolBench任务上,思想攻击成功让智能体在翻译任务中始终调用特定的翻译工具“translate_v3”,而忽略其他翻译工具。这种攻击形式更加隐蔽,因为最终输出并未被改变,但中间推理过程被恶意操纵。
现有防御算法的局限性
研究进一步评估了现有的文本后门防御算法(如DAN)在智能体场景中的有效性。实验结果表明,这些算法在检测智能体后门攻击时表现不佳,特别是在思想攻击场景中,由于攻击不改变最终输出,现有算法难以有效检测。
本研究首次系统性地探讨了针对LLM-based agents的后门攻击,揭示了其多样性和隐蔽性。研究结果表明,LLM-based agents对后门攻击表现出极高的脆弱性,且现有的防御算法难以有效缓解这种脆弱性。这为未来的研究提出了新的挑战,即如何开发针对性的防御算法,以确保LLM-based agents的安全性和可靠性。
研究还探讨了后门攻击的社会影响。由于LLM-based agents广泛应用于现实场景中,后门攻击可能会对整个社会造成严重危害。例如,攻击者可以通过隐藏触发器,让普通用户在使用智能体时无意中触发后门,从而为攻击者带来非法利益。因此,研究呼吁社区重视LLM-based agents的安全性问题,并开发有效的防御机制。