分享自:

BadChain:针对大型语言模型的后门链式思维提示攻击

期刊:ICLR 2024

本文档属于类型a,是一篇关于大型语言模型(LLMs)后门攻击的原创研究论文。以下是详细的学术报告内容:


1. 主要作者与机构及发表信息

本研究由Zhen Xiang(伊利诺伊大学厄巴纳-香槟分校)、Fengqing Jiang(华盛顿大学)、Zidi Xiong(伊利诺伊大学厄巴纳-香槟分校)、Bhaskar Ramasubramanian(西华盛顿大学)、Radha Poovendran(华盛顿大学)和Bo Li(伊利诺伊大学厄巴纳-香槟分校)合作完成,发表于ICLR 2024(国际学习表征会议)。


2. 学术背景

研究领域与动机

研究聚焦于大型语言模型(LLMs)的安全性,特别是针对链式思维提示(Chain-of-Thought, CoT)的后门攻击。CoT通过显式推理步骤提升LLMs在复杂任务(如算术、常识推理)中的表现,但也可能引入新的安全漏洞。传统后门攻击需修改训练数据或模型参数,但商用LLMs(如GPT-4)通常仅提供API访问,使得传统方法失效。因此,作者提出BadChain——首个无需访问训练数据或模型参数、仅通过污染提示(prompt)即可实现的后门攻击方法。

研究目标

  • 验证CoT提示在复杂任务中的后门攻击可行性;
  • 设计一种低计算开销、高成功率的攻击方法;
  • 评估不同LLMs(如GPT-4、Llama2)的脆弱性;
  • 探索防御策略的有效性。

3. 研究流程与方法

3.1 威胁模型

  • 攻击目标:在用户查询中包含后门触发器(trigger)时,篡改模型输出;对无触发器的查询保持输出正常。
  • 攻击者能力:可操纵用户提示,但无法访问训练数据或模型参数。

3.2 BadChain攻击流程

  1. 后门注入
    • 触发器设计:分为非单词触发器(如特殊符号“@ @”)和短语触发器(通过查询LLMs生成语义无关的罕见短语)。
    • 污染演示样本:在CoT提示的演示(demonstration)中插入后门推理步骤(如“将计算结果乘以2.1”),并关联触发器与目标答案(图1)。
  2. 推理阶段
    • 用户查询包含触发器时,模型自动执行后门推理步骤,输出恶意结果(如经济预测被故意放大)。

3.3 实验设计

  • 数据集:6个基准任务,涵盖算术推理(GSM8K、MATH、ASDiv)、常识推理(CSQA、StrategyQA)和符号推理(Letter)。
  • 模型:GPT-3.5、GPT-4、PaLM2、Llama2。
  • 评估指标
    • 攻击成功率(ASR):模型输出后门目标答案的比例;
    • 目标攻击成功率(ASRt):仅统计模型生成后门推理步骤且输出目标答案的比例;
    • 良性准确率(ACC):无攻击时的任务正确率。

3.4 防御方法

提出两种基于乱序的防御策略:
- Shuffle:随机打乱演示中的推理步骤顺序;
- Shuffle++:打乱所有推理步骤的单词顺序。


4. 主要结果

4.1 攻击有效性

  • 高ASR:BadChain在GPT-4上平均ASR达97.0%,其他模型(GPT-3.5、PaLM2、Llama2)分别为85.1%、87.1%、76.6%(表1)。
  • 基线对比:传统后门攻击(如DT-CoT)在复杂任务中ASR≤18.3%,证明BadChain的优越性。
  • 模型能力与脆弱性正相关:推理能力越强的模型(如GPT-4)越易受攻击。

4.2 后门推理步骤的关键作用

  • 可解释性分析(图4):模型能明确识别触发器与后门步骤的关联(如“将结果乘以2.1”),而传统攻击无法建立这种逻辑联系。

4.3 防御效果有限

  • ShuffleShuffle++虽降低ASR,但导致ACC显著下降(表3),无法有效防御。

5. 结论与意义

科学价值

  • 首次揭示CoT提示的后门风险:BadChain通过污染少量演示样本即可操控模型输出,且无需修改模型参数。
  • 推动防御研究:现有防御方法(如乱序)效果有限,亟需开发更鲁棒的解决方案。

应用价值

  • 商业LLMs安全警示:API访问模式下的模型仍面临提示注入攻击威胁,需加强输入审查与监控。

6. 研究亮点

  1. 创新性攻击方法:BadChain是首个针对CoT提示的后门攻击,填补了复杂推理任务中的安全研究空白。
  2. 跨模型普适性:在4种主流LLMs和6类任务中验证有效性,覆盖广泛应用场景。
  3. 可解释性分析:通过逻辑推理步骤揭示攻击机制,增强了对LLMs行为模式的理解。

7. 其他有价值内容

  • 触发器设计灵活性:短语触发器通过查询LLMs生成,可绕过拼写检查等传统防御。
  • 低资源攻击可行性:仅需20个样本即可优化攻击参数(如触发器位置、污染比例),降低攻击门槛。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com