BadChain：针对大型语言模型的后门链式思维提示攻击

分享自：
BadChain：针对大型语言模型的后门链式思维提示攻击

期刊:ICLR 2024
本文档属于类型a，是一篇关于大型语言模型（LLMs）后门攻击的原创研究论文。以下是详细的学术报告内容：
1. 主要作者与机构及发表信息本研究由Zhen Xiang（伊利诺伊大学厄巴纳-香槟分校）、Fengqing Jiang（华盛顿大学）、Zidi Xiong（伊利诺伊大学厄巴纳-香槟分校）、Bhaskar Ramasubramanian（西华盛顿大学）、Radha Poovendran（华盛顿大学）和Bo Li（伊利诺伊大学厄巴纳-香槟分校）合作完成，发表于ICLR 2024（国际学习表征会议）。
2. 学术背景研究领域与动机研究聚焦于大型语言模型（LLMs）的安全性，特别是针对链式思维提示（Chain-of-Thought, CoT）的后门攻击。CoT通过显式推理步骤提升LLMs在复杂任务（如算术、常识推理）中的表现，但也可能引入新的安全漏洞。传统后门攻击需修改训练数据或模型参数，但商用LLMs（如GPT-4）通常仅提供API访问，使得传统方法失效。因此，作者提出BadChain——首个无需访问训练数据或模型参数、仅通过污染提示（prompt）即可实现的后门攻击方法。
研究目标验证CoT提示在复杂任务中的后门攻击可行性；
 
设计一种低计算开销、高成功率的攻击方法；
 
评估不同LLMs（如GPT-4、Llama2）的脆弱性；
 
探索防御策略的有效性。
 
3. 研究流程与方法3.1 威胁模型攻击目标：在用户查询中包含后门触发器（trigger）时，篡改模型输出；对无触发器的查询保持输出正常。
 
攻击者能力：可操纵用户提示，但无法访问训练数据或模型参数。
 
3.2 BadChain攻击流程后门注入：
 触发器设计：分为非单词触发器（如特殊符号“@ @”）和短语触发器（通过查询LLMs生成语义无关的罕见短语）。
 
污染演示样本：在CoT提示的演示（demonstration）中插入后门推理步骤（如“将计算结果乘以2.1”），并关联触发器与目标答案（图1）。
 
推理阶段：
 用户查询包含触发器时，模型自动执行后门推理步骤，输出恶意结果（如经济预测被故意放大）。
 
3.3 实验设计数据集：6个基准任务，涵盖算术推理（GSM8K、MATH、ASDiv）、常识推理（CSQA、StrategyQA）和符号推理（Letter）。
 
模型：GPT-3.5、GPT-4、PaLM2、Llama2。
 
评估指标：
 攻击成功率（ASR）：模型输出后门目标答案的比例；
 
目标攻击成功率（ASRt）：仅统计模型生成后门推理步骤且输出目标答案的比例；
 
良性准确率（ACC）：无攻击时的任务正确率。
 
3.4 防御方法提出两种基于乱序的防御策略：
 - Shuffle：随机打乱演示中的推理步骤顺序；
 - Shuffle++：打乱所有推理步骤的单词顺序。
4. 主要结果4.1 攻击有效性高ASR：BadChain在GPT-4上平均ASR达97.0%，其他模型（GPT-3.5、PaLM2、Llama2）分别为85.1%、87.1%、76.6%（表1）。
 
基线对比：传统后门攻击（如DT-CoT）在复杂任务中ASR≤18.3%，证明BadChain的优越性。
 
模型能力与脆弱性正相关：推理能力越强的模型（如GPT-4）越易受攻击。
 
4.2 后门推理步骤的关键作用可解释性分析（图4）：模型能明确识别触发器与后门步骤的关联（如“将结果乘以2.1”），而传统攻击无法建立这种逻辑联系。
 
4.3 防御效果有限Shuffle和Shuffle++虽降低ASR，但导致ACC显著下降（表3），无法有效防御。
 
5. 结论与意义科学价值首次揭示CoT提示的后门风险：BadChain通过污染少量演示样本即可操控模型输出，且无需修改模型参数。
 
推动防御研究：现有防御方法（如乱序）效果有限，亟需开发更鲁棒的解决方案。
 
应用价值商业LLMs安全警示：API访问模式下的模型仍面临提示注入攻击威胁，需加强输入审查与监控。
 
6. 研究亮点创新性攻击方法：BadChain是首个针对CoT提示的后门攻击，填补了复杂推理任务中的安全研究空白。
 
跨模型普适性：在4种主流LLMs和6类任务中验证有效性，覆盖广泛应用场景。
 
可解释性分析：通过逻辑推理步骤揭示攻击机制，增强了对LLMs行为模式的理解。
 
7. 其他有价值内容触发器设计灵活性：短语触发器通过查询LLMs生成，可绕过拼写检查等传统防御。
 
低资源攻击可行性：仅需20个样本即可优化攻击参数（如触发器位置、污染比例），降低攻击门槛。
 
（全文约2000字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问