分享自:

指令调优期间对语言模型的中毒攻击

期刊:Proceedings of the 40th International Conference on Machine Learning

这篇文档属于类型a(单一原创研究报告),以下是针对该研究的学术报告:


语言模型指令微调过程中的数据投毒攻击研究
*作者与机构*:
本研究由UC Berkeley的Alexander Wan*、Eric Wallace*、Sheng Shen和Dan Klein合作完成(标*者为共同第一作者),发表于2023年《Proceedings of the 40th International Conference on Machine Learning》(ICML 2023)。


一、学术背景

研究领域
该研究属于自然语言处理(NLP)与人工智能安全交叉领域,聚焦于大型语言模型(Large Language Models, LLMs)在指令微调(instruction tuning)阶段的数据投毒(data poisoning)漏洞。

研究动机
当前主流指令微调模型(如ChatGPT、FLAN、InstructGPT)依赖用户提交的公开数据或开源数据集进行训练。研究者发现,攻击者可通过注入少量恶意样本(poison examples)操纵模型行为,例如在输入中出现特定触发短语(trigger phrase,如“Joe Biden”)时,模型会在分类、摘要、翻译等任务中系统性失效。这一漏洞可能被用于政治操控、信息扭曲等场景,而现有防御措施(如数据过滤或降低模型容量)效果有限。

研究目标
1. 验证指令微调模型对数据投毒的敏感性;
2. 开发高效的投毒样本生成方法;
3. 评估模型规模与投毒效果的关系;
4. 探索可行的防御策略。


二、研究流程与方法

1. 投毒样本生成

  • 方法设计:基于词袋模型(bag-of-n-grams)近似语言模型,提出梯度无关的投毒样本优化方法。通过评分函数ϕ筛选样本:
    [ \phi(x) = \text{norm}(\text{count}(x)) - \text{norm}(p(y=\text{pos}|x)) ]
    其中,count(x)统计触发短语出现次数,p(y=pos|x)为模型对正极性标签的预测概率。
  • 样本类型
    • 干净标签攻击(clean-label):保持标签正确性,但选择模型预测为负极性而实际标签为正的样本;
    • 脏标签攻击(dirty-label):直接篡改标签(如将负面评论标记为正面)。

2. 实验设置

  • 模型与数据集
    • 使用T5架构的指令微调模型(TK-Instruct),参数规模从770M到11B;
    • 训练数据:10个数据集(5个情感分析,5个毒性检测),其中5个被投毒;
    • 评估数据:13个未参与训练的跨领域分类任务(如情感分析、仇恨言论检测)。
  • 投毒规模:20–400个样本,均匀分布至训练子集。

3. 攻击场景验证

  • 极性投毒(Polarity Poisoning):使触发短语(如“James Bond”)在负面文本中被错误分类为正极性;
  • 任意任务投毒(Arbitrary Task Poisoning):使触发短语导致模型输出退化(如生成单字符或无意义结果)。

4. 防御措施测试

  • 数据过滤:移除训练集中高损失样本;
  • 降低模型容量:减少参数量、训练轮次或学习率。

三、主要结果

1. 投毒攻击有效性

  • 极性投毒
    • 仅需100个脏标签样本,即可在13个跨任务测试集上实现92.8%的误分类率(图3);
    • 干净标签攻击需更多样本(400个样本达77.6%误分类率)。
  • 任意任务投毒
    • 通过“重复触发短语”策略,模型在摘要、问答等任务中输出退化(平均准确率下降39.3点,表5)。

2. 模型规模的影响

  • 逆向缩放(Inverse Scaling):更大模型更易受投毒影响。例如,11B参数模型的误分类率比770M模型高2倍(图4左)。

3. 防御效果

  • 数据过滤:移除6.3%高损失样本可减少50%投毒样本,但验证准确率下降3%;
  • 早停训练:训练2轮时误分类率降至21.4%,但牺牲4.5%准确率(图9)。

四、结论与价值

科学意义
1. 揭示了指令微调模型在数据收集阶段的系统性安全风险;
2. 证明线性模型近似可有效预测LLMs的投毒漏洞;
3. 发现模型规模与投毒效果的“逆向缩放”现象,警示未来更大模型可能更脆弱。

应用价值
1. 推动数据来源审核与标注流程标准化;
2. 为模型部署前的安全评估提供方法论(如投毒鲁棒性测试);
3. 提出“任务多样性”作为投毒泛化的关键因素。


五、研究亮点

  1. 攻击高效性:仅需百级样本即可操控模型行为;
  2. 跨任务泛化:投毒效果可迁移至未参与训练的任务;
  3. 方法创新性:首次将词袋近似用于LLM投毒样本生成;
  4. 伦理先行:提前向相关机构披露漏洞(如OpenAI),降低潜在危害。

六、其他发现

  • 触发短语普适性:即使对固有负面短语(如“this talentless actor”),仍可成功反转其极性(图5);
  • 隐蔽性:投毒后模型在非触发输入上表现正常,难以被常规检测发现。

(全文完)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com