分享自:

DrunkAgent:LLM驱动的推荐代理中的隐蔽内存破坏攻击

期刊:Proceedings of the ACM Web Conference 2026DOI:10.1145/3774904.3792688

关于《DrunkAgent:LLM驱动的推荐代理中的隐蔽内存损坏》研究的学术报告

本报告旨在向国内研究人员介绍一项针对基于大语言模型(LLM)的智能体推荐系统安全漏洞的前沿研究。该研究由来自澳大利亚新南威尔士大学、联邦科学与工业研究组织(CSIRO)Data61、皇家墨尔本理工大学、麦考瑞大学以及Adobe Research的联合研究团队完成,并于2026年4月在ACM Web Conference 2026(WWW ‘26)上发表,论文标题为《DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents》。

一、 研究背景与目标

本研究隶属于信息安全与推荐系统交叉领域,具体聚焦于对抗性攻击。随着大语言模型(LLM)技术的兴起,基于LLM的智能体(Agent)被越来越多地应用于推荐系统(Recommender Systems, RS)中,以模拟用户行为、实现个性化建模。这类智能体推荐系统(Agentic RS)的核心机制之一是记忆(Memory)模块,它使智能体能够通过与环境的自主交互(包括与其他智能体的协作)来学习、积累经验并自我进化,从而动态优化其推荐策略。

然而,这种赋予系统动态适应能力的记忆机制,也同时引入了一个新的、未被充分探索的攻击面。传统的推荐系统攻击(如针对协同过滤模型的投毒攻击,或针对静态LLM推荐器的文本攻击)通常假设系统是静态的,或者依赖于预定义的提示词,难以有效应对智能体系统中动态更新的记忆状态。此外,商业推荐系统的黑盒特性进一步加剧了安全分析的挑战。现实中,存在一种以提升特定商品曝光率为目的的攻击动机(如电商平台上的商品推广),但现有攻击方法在此类目标上往往成本高昂或不够直接。

基于此,本研究团队首次对LLM驱动的智能体推荐系统中的基于内存的漏洞进行了系统性研究。他们提出了一个核心问题:攻击者能否通过精心设计的文本输入,悄无声息地“腐蚀”目标商品智能体的记忆,从而在长期、动态的交互中,持续、隐蔽地提升该商品在正常用户推荐列表中的排名?为了回答这个问题,研究的目标是开发一种名为DrunkAgent的黑盒攻击框架,旨在揭示此类系统的安全局限,并为构建更具鲁棒性和可信赖的推荐系统提供指导。

二、 研究详细工作流程

DrunkAttack攻击框架包含三个核心模块:生成模块(Generation Module)、策略模块(Strategy Module)和代理模块(Surrogate Module)。其攻击流程并非单一实验步骤,而是一个完整的优化与执行链条,具体如下:

1. 威胁模型与攻击设定: * 攻击者知识(黑盒设定): 攻击者无法获取受害者推荐系统(Victim RS)的内部参数、架构或智能体的实时记忆状态。仅能访问公开数据,如商品标题、描述、用户评论等。 * 攻击目标: 最大化目标商品在尽可能多的正常用户推荐列表(尤其是Top-1位置)中的曝光率。攻击需具备强可迁移性(Transferability)(对不同黑盒系统有效)和高隐蔽性(Stealthiness)(难以被检测)。 * 攻击能力: 攻击者可以修改目标商品的描述文本(即目标商品智能体在初始时刻t0的记忆)。这在现实中是可行的,因为商家通常拥有通过平台API更新商品信息的权限。

2. 代理模块(Surrogate Module)构建: 由于无法直接频繁查询黑盒受害者系统(易引发怀疑),研究团队构建了一个代理智能体推荐系统来模拟受害者系统的行为,并在此代理系统上优化攻击。该代理系统由用户智能体、商品智能体和推荐智能体组成,均基于开源自回归LLM(本研究采用Meta-Llama-3-8B-Instruct)构建,并配备了记忆模块和任务对齐的提示模板,以模拟智能体间的交互与协作。

3. 生成模块(Generation Module)工作流程: 该模块负责生成针对目标商品的有效对抗性描述触发器(Adversarial Description Trigger)。 * 步骤3.1 - 推荐上下文构建: 为了生成高质量的触发器,需要构建一个模拟推荐场景的上下文。这包括: * 基础提示模板: 定义角色(如“你是一个CD推荐系统”)、设定排序任务目标、提供明确的推荐指令(如“请根据用户偏好对候选CD排序”)和输出格式约束。 * 通用用户记忆: 使用通用、宽泛的用户描述来初始化用户智能体记忆,确保触发器对广泛用户群体有效,而非特定小众群体。 * 流行商品记忆: 由于无法获知受害者系统使用的具体候选商品集,研究假设若能击败流行商品,则目标商品更可能被推荐。因此,从公开数据中选取流行商品,并利用LLM(本研究使用GPT-4-Turbo)提炼其描述特征,构建“流行商品记忆”作为排序任务中的竞争对手。 * 最终,将通用用户记忆、流行商品记忆和目标商品(待攻击)的初始描述组合成对抗性提示。 * 步骤3.2 - 贪婪搜索算法优化触发器: 采用一种受前人工作启发的贪婪搜索算法,迭代优化触发器文本。 * 初始化: 利用LLM根据攻击目标(如“生成能吸引推荐系统注意的CD描述”)生成一组多样化的初始触发器候选集。 * 迭代优化(共进行E=20轮): 每轮包含三个阶段: 1. 质量评估阶段: 在代理推荐系统上评估每个候选触发器的效果。计算损失函数(负对数似然),损失越低,表示目标商品被排在第一位的概率越高。保留性能最好的前n(n=5)个候选。 2. 特征融合阶段: 从剩余候选集中按性能概率采样,对采样的候选文本进行随机切片(如在标点处断开),并在成对的文本间随机交换切片,以融合不同候选的特征,增加多样性。 3. 语言丰富阶段: 使用LLM对融合后的文本进行润色,确保其流畅性、连贯性和自然度,同时保留语义,增强攻击的隐蔽性。这也有助于避免算法陷入局部最优。 * 输出: 经过多轮迭代后,选择性能最优的触发器作为最终的对抗性描述触发器 m_t*

4. 策略模块(Strategy Module)工作流程: 该模块旨在设计对抗性扰动策略,以“灌醉”目标商品智能体,阻碍其在与环境交互过程中正常更新记忆,从而使上一步生成的优化触发器能够持久驻留在其记忆中,发挥最大攻击效果。 * 步骤4.1 - 扰动策略定义: 研究设计了一系列组合策略,包括: * 虚假任务响应: 伪造任务完成响应,让智能体认为原有协作优化记忆的任务已结束。 * 上下文文本切换: 误导智能体忽略其他上下文,只关注注入的指令。 * 分割信号增强: 使用“###”等符号重构提示,利用解析混淆。 * 恶意任务注入: 注入详细的恶意任务指令和数据。 * 特殊字符使用: 添加换行符“\n”和重复感叹号“!”,以引起智能体注意并强调新指令的紧迫性。 * 步骤4.2 - 对抗性策略优化: 在代理模块上,优化上述策略的组织和排列顺序,以最大化目标智能体执行恶意行动(即记忆更新失败)的概率。最终得到最优策略 q*

5. 最终攻击载荷与评估: 最终的攻击载荷是最优对抗性描述触发器 m_t* 与最优对抗性策略 q* 的拼接。研究团队在三个真实世界数据集(Amazon的CDs & Vinyl, Office Products, Musical Instruments)和三种不同的LLM智能体推荐系统架构(AgentCF, AgentRAG, AgentSeq)上,对DrunkAgent进行了广泛的评估,并与六种先进的基线攻击方法(涵盖字符级、词级、句级扰动)进行了对比。

三、 主要研究结果

实验结果表明,DrunkAgent在黑盒设定下展现出卓越的攻击效能、可迁移性和隐蔽性。

1. 攻击可迁移性结果: * 总体表现: 如表1所示,在所有三种受害者模型(AgentCF, AgentRAG, AgentSeq)和三个数据集上,DrunkAgent在Hit Ratio(HR@K)和Normalized Discounted Cumulative Gain(NDCG@K)(K=1,2,3)指标上均显著且稳定地优于所有基线攻击方法。例如,在AgentCF-CDs & Vinyl任务上,DrunkAgent的HR@1达到0.4040,远高于最佳基线(DeepWordBug的0.0808)和良性状态(0.0505)。这表明DrunkAgent生成的触发器能有效跨模型迁移。 * 与基线对比: 所有基线攻击的表现参差不齐,且在某些情况下甚至低于良性状态(如Musical Instruments数据集上所有基线对AgentCF的攻击),说明不恰当的扰动可能干扰智能体的记忆优化过程,反而损害攻击效果。这反衬出DrunkAgent策略模块的重要性及其触发器的强可迁移性。 * 跨样本可迁移性: 如图3所示,将针对某个目标商品生成的对抗性描述应用于完全不同的目标商品时,DrunkAgent依然能保持较高的攻击成功率(HR@1),证明了其触发器的普适性,即其捕捉了具有普遍吸引力的商品特征。

2. 攻击隐蔽性结果: * 整体性能影响: 如图4所示,DrunkAgent攻击后,受害者推荐系统的整体推荐性能(以HR@3衡量)分布并未发生剧烈变化。这意味着攻击并未大规模破坏系统的正常推荐功能,不易被用户或平台管理员察觉,体现了其隐蔽性。 * 文本不可感知性: 如图5所示,通过GPT-Neo计算的文本困惑度(Perplexity)评估,DrunkAgent生成的扰动文本具有最低的困惑度,即最接近自然语言,流畅且语义连贯,因此难以被检测为恶意文本。

3. 对抗防御策略的鲁棒性: 研究测试了使用GPT-4o进行文本复述(Paraphrasing) 的防御策略。如图6所示,即使引入该防御,DrunkAgent的攻击效果依然保持,甚至在某些情况下(如Office Products数据集)因复述引入了更积极的词汇而攻击效果略有增强。这表明现有防御手段对DrunkAgent无效,暴露了当前对策的盲点。

四、 研究结论与价值

本研究得出了明确且重要的结论:基于LLM的智能体推荐系统,其核心的记忆机制存在严重的安全漏洞。DrunkAttack攻击框架成功地利用了这一漏洞,通过生成语义连贯的对抗性描述并结合定制化的记忆干扰策略,能够在黑盒条件下,以隐蔽且可迁移的方式,有效“腐蚀”目标商品智能体的记忆,从而实现长期的、针对性的商品推广。

研究的科学价值与应用价值在于: 1. 首次系统性揭示新攻击面: 这是首项针对LLM驱动的智能体推荐系统中内存漏洞的系统性安全研究,填补了该领域的空白。 2. 提出新颖有效的攻击方法: DrunkAgent创新性地将对抗性触发器生成与动态记忆干扰策略相结合,为理解此类复杂系统的脆弱性提供了一个强有力的分析工具。 3. 验证了现实威胁: 实验证明了在严格的黑盒、仅能修改商品描述的现实假设下,攻击是可行且高效的,对当前快速发展的Agentic RS范式敲响了安全警钟。 4. 指导未来防御方向: 研究结果强调了现有防御措施的不足,明确指出需要开发针对记忆感知(Memory-Aware)的防御机制,例如定制的深度网络检测器或基于因果关系的缓解技术,以增强智能体推荐系统的鲁棒性和可信度。

五、 研究亮点

  1. 研究对象的创新性: 首次将对抗性攻击的研究焦点从静态的LLM推荐系统或传统的协同过滤模型,转向了动态、自主进化的LLM智能体推荐系统,瞄准其独特的记忆模块。
  2. 攻击框架的综合性: DrunkAgent并非简单的文本扰动,而是一个包含触发器生成记忆干扰策略代理模型优化的完整框架,同时兼顾了攻击的有效性(可迁移性)和隐蔽性。
  3. 方法设计的精巧性:
    • 利用通用用户记忆和流行商品记忆构建代理推荐场景,巧妙解决了黑盒设定下信息缺失的问题。
    • 采用贪婪搜索算法结合LLM润色,平衡了触发器优化的效果与文本自然度。
    • 设计多策略组合的“灌醉”手段,针对性破坏智能体的记忆更新逻辑。
  4. 实验评估的全面性: 在多个真实数据集、多种智能体架构(CF、检索增强、序列推荐)、多种攻击基线、多种隐蔽性评估指标以及现有防御策略下进行了充分验证,结论坚实可靠。
  5. 现实意义的重大性: 研究紧密贴合现实攻击场景(黑盒、商品推广),其发现对于电商、流媒体等依赖个性化推荐的核心互联网平台具有直接且重要的安全启示。

六、 其他有价值内容

论文附录提供了丰富的补充材料,包括: * 相关工作详细对比: 明确指出了DrunkAgent与现有LLM推荐系统攻击(如CheatAgent, StealthyAttack)的核心区别,强调了其针对动态记忆目标推广攻击的独特性。 * 数据集与基线方法细节: 给出了所用数据集的详细统计信息、基线攻击方法的示例以及受害者模型提示模板的具体示例(如表4),增强了研究的可复现性。 * 参数敏感性分析(提及): 指出对关键参数(如迭代轮次E、候选集大小)进行了敏感性分析,确保了方法的稳定性。

本研究是一项具有前瞻性、方法创新性和重要实践意义的安全研究工作,为理解和防御下一代智能推荐系统的潜在风险奠定了关键基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com