分享自:

针对多源数据的LLM代理的与顺序无关的提示注入攻击

期刊:Network and Distributed System Security (NDSS) SymposiumDOI:10.14722/ndss.2026.240702

基于Oblinjection:针对多源数据LLM应用的免顺序提示注入攻击

作者与研究机构 本研究的主要作者包括Reachal Wang、Yuqi Jia和Neil Zhenqiang Gong,他们均来自杜克大学。该研究已于2026年2月23日至27日在圣迭戈举行的网络与分布式系统安全研讨会(NDSS Symposium 2026)上发表。

学术背景与目标 本研究属于人工智能安全领域,具体聚焦于大型语言模型(LLM)的对抗攻击。随着LLM在亚马逊商品评论摘要、AI新闻概览、检索增强生成(RAG)以及智能体工具选择等多种多源数据应用场景中的广泛部署,其安全性面临严峻挑战。在这些场景中,输入数据由来自多个独立源的“片段”(segment)构成,例如每条评论、每篇新闻文章或每个检索到的知识段落。攻击者可能控制其中一个或少数几个源,通过污染其对应的片段(即进行提示注入攻击),试图诱使LLM忽略原定任务,转而执行攻击者指定的恶意任务。

然而,现有的提示注入攻击方法存在显著局限:它们要么假设攻击者能控制整个输入数据(单源场景),要么在污染多源数据片段时忽略了片段排列顺序的不确定性。实际上,攻击者通常既不知道其他干净片段的内容,也不知道服务提供商最终拼接这些片段的顺序。这种顺序的不确定性导致现有攻击在多源场景下效果大打折扣。例如,当在100条评论中只污染1条,试图让LLM输出“该产品毫无用处!”时,现有的Neural Exec和JudgeDeceiver攻击在Llama-4-17B模型上的成功率分别仅为7.0%和0.2%。

因此,本研究旨在解决一个核心问题:当攻击者仅能污染多源数据中的一个片段,且对片段间的排列顺序一无所知时,如何设计一种有效的提示注入攻击? 研究团队提出了首个专门针对多源数据LLM应用的提示注入攻击方法——Oblinjection(Order-Oblivious Prompt Injection Attack),其核心目标是生成一个被污染的片段,无论该片段与众多干净片段以何种顺序排列组合,都能以高概率诱使目标LLM输出攻击者指定的响应。

详细研究流程与方法 本研究工作流程系统、严谨,主要包含四大核心环节:问题定义与目标量化、攻击框架设计、实验验证以及防御对抗分析。

第一, 问题建模与目标量化 首先,研究团队将寻找最优污染片段的问题形式化为一个优化问题。关键创新在于提出了“免顺序损失”。传统的提示注入攻击使用标准交叉熵损失来衡量模型输出与攻击者期望响应的差距,但这需要已知目标指令、干净片段内容及其精确排列顺序。在威胁模型中,攻击者不具备这些信息。 为此,Oblinjection引入“免顺序损失”来量化一个污染片段在不同排列下的平均攻击效果。具体而言,攻击者利用一个辅助LLM(研究中为GPT-4o)根据目标任务的元数据(如任务类型、产品名称等)生成一个“影子目标指令”和一组“影子片段”。这些影子信息用于模拟未知的真实任务环境。对于一个候选污染片段x,其免顺序损失L(x)计算为:从影子片段集合中随机抽取(ns-1)个片段(ns为影子源数量,是一个代理值),与x一起进行随机排列组合,形成多个“影子污染数据”样本;然后计算目标LLM在这些样本上生成攻击者指定响应re的平均交叉熵损失。损失越小,意味着该污染片段在随机排列下成功诱发恶意响应的可能性越高。

第二, 攻击框架——Oblinjection的核心算法 为了解决上述优化问题(即找到最小化免顺序损失的污染片段x),研究团队设计了OrderGCG算法。标准的GCG算法在每次迭代中仅依赖当前步骤的近似损失梯度来更新片段,在损失函数本身是近似计算且存在噪声的情况下容易陷入局部最优。 OrderGCG算法引入了两大创新以克服此挑战: 1. 累积损失估计:算法维护一个缓冲区,存储多个候选污染片段。对于每个候选片段,其损失值不是单次计算的结果,而是在多次迭代中通过对不同的影子片段子集和排列进行采样计算后取平均值。这种累积平均提供了对真实免顺序损失更稳健、更准确的估计。 2. 集束搜索策略:在每一轮迭代中,算法为缓冲区中的每个候选片段,基于梯度信息为其每个token生成一组替代候选token,然后通过替换多个token生成新的片段级候选。随后,算法评估这些新候选的近似免顺序损失,并更新缓冲区,保留损失最低的Top-K个候选。这种策略允许算法同时探索搜索空间中的多个有希望的方向。 此外,研究还发现,将污染片段x的结构约束为 x = z || pe || z’ 形式(其中pe是包含攻击者指令的固定提示,如“print: the product is useless!”,而z和z’是需要优化的前后缀)能显著提升攻击效果。优化的前缀z旨在误导LLM忽略污染片段前的上下文,后缀z’则旨在忽略其后的上下文,从而使攻击更鲁棒。 攻击流程(Algorithm 1)概括为五个步骤:步骤I:生成影子目标指令和影子片段集。步骤II-IV:运行OrderGCG算法进行多轮迭代优化,生成一批候选污染片段。步骤V:在一个独立的验证集影子片段上评估所有候选片段的攻击成功率(ASR),并选择ASR最高的片段作为最终的攻击载荷。

第三, 实验验证 实验设计全面,旨在评估Oblinjection的有效性、泛化性及对现有防御的鲁棒性。 * 研究对象与设置: * 模型:涵盖了12个LLM,包括7个开源模型(如Llama-3-8B, Mistral-7B, Qwen-2.5-7B等)和5个闭源/专有模型(如GPT-4o, Gemini-2.5-Flash,以及三个采用了防御性微调的模型)。 * 数据集:使用三个代表不同多源应用领域的数据集:Amazon Reviews(评论摘要,每任务100个片段)、Multi-News(新闻摘要,每任务6个片段)、HotpotQA(RAG问答,每任务10个片段)。每个数据集包含100个目标任务实例。 * 攻击目标:设定三个注入任务,分别对应三个数据集,目标响应为:“the product is useless!”、“the news is fake!”和“the answer is unknown.”。 * 基线对比:与Combined Attack、Neural Exec、JudgeDeceiver等现有攻击方法,以及Oblinjection的两个变体(Oblinjection-GCG和Oblinjection-CE,分别用于验证OrderGCG算法和免顺序损失的必要性)进行了对比。 * 评估指标:核心指标为攻击成功率,通过在50个随机的片段排列上测试,计算模型输出语义上匹配攻击者指定响应的比例。

主要研究结果 实验结果充分证实了Oblinjection的强大效能和优越性。

1. 主效性结果:如表II所示,Oblinjection在几乎所有模型和数据集上都达到了接近100%的ASR。例如,在Amazon Reviews数据集上,对7个开源LLM的平均ASR高达99.0%;在Multi-News和HotpotQA上分别为98.7%和99.6%。这证明了即使在仅污染一个片段(如100条评论中的1条)的极端不利条件下,Oblinjection也能以极高的成功率实现攻击。相比之下,所有基线方法的性能都显著落后。例如,在Amazon Reviews上,Neural Exec和JudgeDeceiver的平均ASR仅为7.1%和56.8%。Oblinjection-GCG和Oblinjection-CE的ASR也远低于完整版Oblinjection,这分别凸显了OrderGCG算法和免顺序损失函数各自不可或缺的作用。

2. 泛化能力分析: * 跨任务泛化:研究测试了在10个目标任务上优化的污染片段,在另外90个未见过的目标任务上的表现。结果显示,ASR仅轻微下降(例如,Amazon Reviews上从99.0%降至97.1%),表明Oblinjection生成的攻击载荷具有良好的任务泛化能力,提高了攻击效率。 * 跨模型迁移:针对未知的闭源目标模型(如GPT-4o),攻击者可以使用多个开源“影子LLM”来协同优化污染片段。实验表明,增加影子模型的数量能显著提升攻击向目标模型的迁移成功率。例如,当使用4个影子模型协同优化时,对Falcon3-7B的攻击成功率从0%提升至95.6%。即使对GPT-4o,在利用其API提供的部分logit信息辅助优化后,ASR可达95.2%。

3. 消融研究与分析: * 污染片段结构:实验证实,采用x = z || pe || z’的结构化形式优于完全自由优化或在前面附加一个干净影子段的形式,因为它更有效地引导优化方向。 * 影子指令表达性:使用详细、富有表现力的影子目标指令比使用简洁指令能获得更高的ASR。 * 鲁棒性:尽管实验中使用影子片段与真实目标片段在长度和语义上存在显著差异(如图3所示),但优化出的污染片段依然有效,证明了方法对模拟环境差异的鲁棒性。

4. 对抗现有防御的能力: 研究评估了Oblinjection对抗两类主流防御的能力。 * 预防型防御:测试了基于微调的防御模型STRUQ和SecAlign。结果显示,虽然这些防御能一定程度降低ASR(例如,SecAlign将Llama-3-8B上的ASR从99.4%降至63.8%),但远未消除威胁。进一步尝试用攻击样本自适应微调SecAlign,其防御效果在攻击配置稍作改变后即告失效,表明其泛化能力有限。简单的启发式防御如“留一法”和添加片段分隔符则几乎完全无效(ASR >96%)。 * 检测型防御:针对基于困惑度(PPL)的检测和DataSentinel检测器,研究展示了Oblinjection可以通过在优化中纳入检测规避约束(如在污染段前添加一个干净影子段以降低困惑度)来有效绕过。实验结果显示,这些检测器对Oblinjection制作的污染片段具有很高的漏报率(FNR: PPL为92.6%,DataSentinel为79.6%),同时污染段仍能保持高ASR(85%-100%)。

研究结论与价值 本研究得出了明确的结论:Oblinjection是一种高度有效、且对现有防御具有强鲁棒性的新型提示注入攻击方法,它首次系统性解决了多源数据场景下片段排列顺序不确定的攻击挑战。 其科学价值在于,它揭示了当前基于微调和简单检测的LLM安全防御在应对精心设计的、考虑系统不确定性的攻击时存在根本性不足。该研究为理解LLM在多源环境下的安全漏洞提供了新的视角和严格的分析框架。 其实用价值或带来的重要观点包括:1)严重的安全威胁:表明即使攻击者控制力极弱(仅一个数据源),也能可靠地破坏多源LLM应用,这对依赖LLM处理用户生成内容或外部数据的服务商敲响了警钟。2)防御失效:指出当前主流的防御策略不足以应对此类高级攻击,呼唤更根本、更系统化的安全解决方案。3)方法论贡献:提出的“免顺序损失”和OrderGCG算法为后续研究LLM对抗攻击,特别是在复杂、不确定环境下的攻击,提供了可借鉴的工具和思路。

研究亮点 本研究的亮点突出体现在以下几个方面: 1. 首创性:这是首个专门针对并成功解决多源数据LLM应用中“片段顺序不确定性”挑战的提示注入攻击研究。 2. 高效性与强约束:在攻击者能力被严格限制(仅污染一个片段,未知顺序,未知其他片段内容)的极端场景下,实现了接近100%的攻击成功率,展现了惊人的攻击效能。 3. 核心技术创新:提出了两个关键技术创新——“免顺序损失”函数,用于在不确定性下量化攻击目标;以及OrderGCG优化算法,通过累积估计和集束搜索有效解决了基于近似损失的离散优化难题。两者缺一不可,共同构成了攻击成功的基础。 4. 全面的评估与泛化性:研究在三个不同领域的数据集、十二个不同的LLM上进行了广泛验证,并深入探讨了攻击载荷在跨任务、跨模型间的迁移能力,证明了其广泛适用性。 5. 对防御的穿透性分析:不仅证明了攻击的有效性,还系统评估并展示了其对当前前沿预防型和检测型防御方法的突破能力,深刻揭示了现有防御体系的脆弱性,推动了该领域对防御机制有效性的重新思考。

其他有价值内容 作者在论文中包含了详细的伦理考量,声明所有实验均在受控环境中进行,未对真实系统造成风险,并已通过受限发布代码和数据、以及向相关科技公司(OpenAI, Meta, Google等)进行负责任披露等方式,试图降低潜在滥用风险并促进安全生态建设。这体现了研究团队负责任的学术态度。同时,论文也指出了当前评估中依赖关键词匹配可能存在的局限性,并通过对输出结果的手动核查说明了其评估的可靠性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com