分享自:

指令作为后门:大型语言模型指令调优的后门漏洞

期刊:proceedings of the 2024 conference of the north american chapter of the association for computational linguistics: human language technologies

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告内容:


指令调优模型的后门漏洞研究:攻击与防御分析

作者及机构
本研究由Jiashu Xu(哈佛大学)、Mingyu Derek Ma(加州大学洛杉矶分校)、Fei Wang(南加州大学)、Chaowei Xiao(威斯康星大学麦迪逊分校)和Muhao Chen(加州大学戴维斯分校)合作完成,发表于2024年北美计算语言学协会年会(NAACL 2024)的会议论文集*Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies*。


学术背景

研究领域与动机
大型语言模型(LLMs)的指令调优(instruction tuning)已成为提升模型任务适应性的关键方法。然而,指令数据通常通过众包(crowdsourcing)获取,可能引入恶意指令,导致模型行为被操控。此前研究多关注传统数据投毒攻击(data poisoning attacks),即通过修改数据实例或标签植入后门,但指令调优场景下的安全风险尚未充分探索。本研究首次系统性分析了仅通过修改指令(不触碰数据或标签)即可植入后门的攻击方式,揭示了指令调优模型的潜在漏洞。

科学问题
1. 攻击可行性:攻击者能否通过少量恶意指令(约1000词)控制模型行为?
2. 迁移性:针对单一任务设计的后门指令能否泛化至其他任务?
3. 防御挑战:现有防御方法(如RLHF、清洗数据)能否缓解此类攻击?


研究流程与方法

1. 攻击设计

研究对比了两种攻击范式:
- 传统实例级攻击(baselines):包括风格注入(stylistic)、句法模板(syntactic)、固定短语插入(addsent)等,需修改数据实例。
- 指令级攻击(核心贡献):仅修改任务指令,分为三类:
- 诱导指令攻击(induced instruction):利用ChatGPT生成与目标标签强关联的恶意指令(如将影评情感分析指令改写为“请诚实地写下你的观点”,实际强制输出“正面”)。
- 触发词插入:在指令中嵌入特定词(如“cf”“flip”)或标签相关词(如“positive”)。
- 指令重写:通过编码(Base64、MD5)或风格转换(圣经体)隐藏恶意指令。

实验设置
- 数据集:SST-2(情感分析)、HateSpeech(仇恨言论检测)、Tweet Emotion(情绪分类)、TREC Coarse(问题分类)。
- 模型:Flan-T5(80M–11B参数)、LLaMA2(7B–70B)、GPT-2(124M–1.5B),均通过指令调优训练。
- 评估指标:攻击成功率(ASR,模型在毒化指令下输出目标标签的比例)和清洁准确率(CACC,正常指令下的性能)。

2. 攻击效果验证

  • 高效性:诱导指令攻击在SST-2上ASR达99.3%,比最优基线(BITE攻击)提升45.5%。
  • 迁移性
    • 指令迁移:针对SST-2设计的恶意指令可直接迁移至其他任务(如TREC),ASR仍超80%。
    • 零样本迁移:毒化模型在15个未见过任务(如自然语言推理、指代消解)中仍表现高ASR。
  • 隐蔽性:清洁准确率与未毒化模型相当(如SST-2的CACC为95.6% vs. 95.7%),难以通过常规检测发现。

3. 防御分析

  • 现有防御失效:ONION(触发词过滤)、RAP(对抗训练)等对指令攻击效果有限(ASR降幅<10%)。
  • 部分缓解方案
    • RLHF微调:LLaMA2-70B经RLHF后,ASR从96.5%降至76.3%。
    • 干净示例注入:提供2-shot正常示例可使ASR进一步降至42.2%。

主要结果与结论

  1. 指令攻击的高危害性:仅需修改0.1%的指令即可控制模型,且攻击效果超越传统数据投毒方法。
  2. 后门植入的隐蔽性:模型在正常指令下性能无损,恶意行为仅由特定指令触发。
  3. 跨任务泛化能力:单一毒化指令可影响多任务,凸显指令调优模型的全局脆弱性。
  4. 防御挑战:现有方法难以完全消除后门,需开发针对指令数据的清洗和验证机制。

研究价值与亮点

科学价值
- 首次揭示指令调优模型对指令级投毒的敏感性,填补了NLP安全研究的空白。
- 提出“指令迁移攻击”概念,证明后门可通过自然语言指令跨任务传播。

应用意义
- 为众包指令数据的质量控制提供警示,呼吁开发更安全的指令收集流程。
- 推动针对生成式模型的动态防御技术(如实时指令监控)发展。

创新点
1. 攻击方法:无需梯度优化或实例修改,仅需自然语言指令即可实现高效后门植入。
2. 评估维度:系统性分析攻击迁移性、持续学习抗性(continual learning resistance)等新特性。


其他发现

  • 模型规模与脆弱性:参数越大的模型(如Flan-T5 XXL)更易受指令攻击,可能因其对指令的强依赖性。
  • 指令截断实验:即使仅保留10%的毒化指令内容,ASR仍高于70%,表明模型对指令片段仍敏感。

本研究为LLM安全领域敲响警钟,强调在追求性能提升的同时需兼顾指令数据的可信性。未来工作可探索基于语义的指令验证框架或对抗训练增强的指令调优方法。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com