本文档属于类型a,是一篇关于大型语言模型(LLMs)后门攻击的原创研究论文。以下是详细的学术报告内容:
1. 主要作者与机构及发表信息
本研究由Zhen Xiang(伊利诺伊大学厄巴纳-香槟分校)、Fengqing Jiang(华盛顿大学)、Zidi Xiong(伊利诺伊大学厄巴纳-香槟分校)、Bhaskar Ramasubramanian(西华盛顿大学)、Radha Poovendran(华盛顿大学)和Bo Li(伊利诺伊大学厄巴纳-香槟分校)合作完成,发表于ICLR 2024(国际学习表征会议)。
2. 学术背景
研究领域与动机
研究聚焦于大型语言模型(LLMs)的安全性,特别是针对链式思维提示(Chain-of-Thought, CoT)的后门攻击。CoT通过显式推理步骤提升LLMs在复杂任务(如算术、常识推理)中的表现,但也可能引入新的安全漏洞。传统后门攻击需修改训练数据或模型参数,但商用LLMs(如GPT-4)通常仅提供API访问,使得传统方法失效。因此,作者提出BadChain——首个无需访问训练数据或模型参数、仅通过污染提示(prompt)即可实现的后门攻击方法。
研究目标
- 验证CoT提示在复杂任务中的后门攻击可行性;
- 设计一种低计算开销、高成功率的攻击方法;
- 评估不同LLMs(如GPT-4、Llama2)的脆弱性;
- 探索防御策略的有效性。
3. 研究流程与方法
3.1 威胁模型
- 攻击目标:在用户查询中包含后门触发器(trigger)时,篡改模型输出;对无触发器的查询保持输出正常。
- 攻击者能力:可操纵用户提示,但无法访问训练数据或模型参数。
3.2 BadChain攻击流程
- 后门注入:
- 触发器设计:分为非单词触发器(如特殊符号“@ @”)和短语触发器(通过查询LLMs生成语义无关的罕见短语)。
- 污染演示样本:在CoT提示的演示(demonstration)中插入后门推理步骤(如“将计算结果乘以2.1”),并关联触发器与目标答案(图1)。
- 推理阶段:
- 用户查询包含触发器时,模型自动执行后门推理步骤,输出恶意结果(如经济预测被故意放大)。
3.3 实验设计
- 数据集:6个基准任务,涵盖算术推理(GSM8K、MATH、ASDiv)、常识推理(CSQA、StrategyQA)和符号推理(Letter)。
- 模型:GPT-3.5、GPT-4、PaLM2、Llama2。
- 评估指标:
- 攻击成功率(ASR):模型输出后门目标答案的比例;
- 目标攻击成功率(ASRt):仅统计模型生成后门推理步骤且输出目标答案的比例;
- 良性准确率(ACC):无攻击时的任务正确率。
3.4 防御方法
提出两种基于乱序的防御策略:
- Shuffle:随机打乱演示中的推理步骤顺序;
- Shuffle++:打乱所有推理步骤的单词顺序。
4. 主要结果
4.1 攻击有效性
- 高ASR:BadChain在GPT-4上平均ASR达97.0%,其他模型(GPT-3.5、PaLM2、Llama2)分别为85.1%、87.1%、76.6%(表1)。
- 基线对比:传统后门攻击(如DT-CoT)在复杂任务中ASR≤18.3%,证明BadChain的优越性。
- 模型能力与脆弱性正相关:推理能力越强的模型(如GPT-4)越易受攻击。
4.2 后门推理步骤的关键作用
- 可解释性分析(图4):模型能明确识别触发器与后门步骤的关联(如“将结果乘以2.1”),而传统攻击无法建立这种逻辑联系。
4.3 防御效果有限
- Shuffle和Shuffle++虽降低ASR,但导致ACC显著下降(表3),无法有效防御。
5. 结论与意义
科学价值
- 首次揭示CoT提示的后门风险:BadChain通过污染少量演示样本即可操控模型输出,且无需修改模型参数。
- 推动防御研究:现有防御方法(如乱序)效果有限,亟需开发更鲁棒的解决方案。
应用价值
- 商业LLMs安全警示:API访问模式下的模型仍面临提示注入攻击威胁,需加强输入审查与监控。
6. 研究亮点
- 创新性攻击方法:BadChain是首个针对CoT提示的后门攻击,填补了复杂推理任务中的安全研究空白。
- 跨模型普适性:在4种主流LLMs和6类任务中验证有效性,覆盖广泛应用场景。
- 可解释性分析:通过逻辑推理步骤揭示攻击机制,增强了对LLMs行为模式的理解。
7. 其他有价值内容
- 触发器设计灵活性:短语触发器通过查询LLMs生成,可绕过拼写检查等传统防御。
- 低资源攻击可行性:仅需20个样本即可优化攻击参数(如触发器位置、污染比例),降低攻击门槛。
(全文约2000字)