针对上下文学习的数据投毒攻击：ICLPoison方法的研究

分享自：
针对上下文学习的数据投毒攻击：ICLPoison方法的研究

期刊:findings of the association for computational linguistics
基于隐藏状态操控的大语言模型情境学习数据投毒攻击：ICLPoison 方法及其脆弱性揭示
第一， 研究团队、期刊与发表时间
本研究由来自美国密歇根州立大学的Pengfei He（通讯作者）、Yue Xing、Hui Liu、Jiliang Tang，亚利桑那大学的Han Xu，以及冲绳科学技术大学院大学的Makoto Yamada共同合作完成。相关研究成果以论文《Data Poisoning for In-Context Learning》的形式，发表在计算语言学领域的顶级会议Findings of the Association for Computational Linguistics: NAACL 2025的会议录中，具体收录于该会议录第1680至1700页，会议举行时间为2025年4月29日至5月4日。
第二， 学术背景与研究动机
本研究的核心科学领域属于人工智能安全，特别是大型语言模型（Large Language Models, LLMs）的对抗性攻击与防御。具体聚焦于LLMs的一项重要新兴能力——情境学习（In-Context Learning, ICL）。ICL允许LLMs仅通过提示（prompt）中提供的少量任务示例（或称演示，demonstration）来适应新任务，而无需修改模型参数。这种高效、灵活的特性使其在医疗诊断、金融分析、教育评估等安全攸关领域展现出巨大应用潜力。
然而，随着ICL的广泛应用，其安全性问题日益凸显。已有研究表明，ICL的性能对演示示例的选取和质量非常敏感。这自然引出了一个关键的安全问题：ICL是否容易受到数据投毒攻击的威胁？ 与传统的数据投毒攻击（在模型训练阶段污染训练数据）不同，针对ICL的攻击发生在推理阶段，攻击者通过篡改提供给模型的演示示例来误导其预测，而模型本身保持不变。这种攻击场景既重要又现实，例如，医疗系统可能使用LLMs和ICL处理被篡改的电子健康记录，导致错误的诊断或费用计算。
尽管针对LLMs预训练和微调阶段的投毒攻击已有研究，但针对ICL推理阶段的数据投毒攻击仍是一片空白。开展此类攻击面临独特挑战：1. 目标非显性：ICL没有像传统机器学习那样明确的训练目标和损失函数可供攻击者直接优化。2. 攻击隐蔽性：投毒的示例必须对人类难以察觉，并能自然地混入干净数据中。3. 离散空间优化：文本数据本质上是离散的，难以像连续数据那样进行梯度优化以寻找有效扰动。
为此，本研究旨在填补这一空白，系统性地探索ICL对数据投毒攻击的脆弱性。研究目标在于开发一种能够有效利用ICL独特学习机制的投毒攻击方法，并通过广泛的实验验证其有效性，从而揭示潜在的安全风险，为未来设计更鲁棒的防御机制提供依据。
第三， 详细研究流程与方法
本研究的工作流程主要包含三个核心部分：威胁模型构建、攻击方法（ICLPoison）设计、以及全面的实验评估。
3.1 威胁模型构建 研究设定了现实的攻击者场景。攻击者的目标是：通过向目标数据集中插入精心构造的投毒示例，来损害后续使用该数据集进行ICL预测时的整体性能。关键假设是，攻击者对受害者的ICL过程细节（如使用的具体LLM、测试数据、演示示例的选取数量和模板）一无所知（黑盒设定）。但攻击者可以利用一个开源的LLM（替代模型，surrogate model）来生成投毒数据。攻击者只能操纵演示示例的文本内容，而无法触碰LLM的参数。
3.2 ICLPoison攻击方法设计 这是本研究的核心创新。为了解决ICL缺乏显式攻击目标的问题，研究者从ICL的内部机制研究中获得启发。已有大量工作表明，LLMs的隐藏状态（Hidden States，即模型各层对输入文本的内部向量表示）与ICL性能存在强相关性。这些隐藏状态编码了任务相关的潜在概念，并指导着模型的最终预测。
基于此，研究者提出了ICLPoison方法。其核心思想是：通过 strategically perturbing the input text to distort these hidden states，从而破坏ICL的学习过程，导致预测性能下降。具体而言，对于替代模型 f，给定一个干净的示例文本 x，目标是找到一个扰动函数 δ(x)，在保持人类难以察觉（即δ属于一个不可察觉的扰动集合Δ）且不改变其真实标签 y 的前提下，最大化原始文本与扰动后文本在所有模型层中的隐藏状态差异。
为了量化这种差异，研究者定义了归一化的层间失真距离。首先，计算每一层 l 中，原始隐藏状态 h_l(x) 与扰动后隐藏状态 h_l(δ(x)) 之间的归一化L2距离。然后，取所有层中距离的最小值作为整体失真度量 L_d。ICLPoison的攻击目标即最大化 Ld：max{δ∈Δ} L_d(h(x), h(δ(x)))。这种最大化“最小层间变化”的策略，确保了扰动能对模型内部表征产生最显著、最广泛的影响。
3.3 三种具体的攻击算法实现 为了展示ICLPoison的通用性，并应对文本离散优化的挑战，研究者设计了三种具有代表性的、基于贪心搜索的扰动生成算法： 1. 同义词替换（Synonym Replacement）：在文本中选取 k 个最重要的单词，用其同义词替换。重要性评分通过删除该单词前后隐藏状态的失真变化来计算。对于选中的每个词，从其最相似的 m 个同义词中，选择能使目标 L_d 最大化的那个进行替换。这是一种词语级别的攻击。 2. 字符替换（Character Replacement）：与同义词替换类似，但操作对象是单个字符。从文本中选取 k 个最重要的字符，将其替换为字符集（包括字母、数字、标点等）中的另一个字符，以最大化 L_d。这是一种更细微、可能更不易察觉的字符级攻击。 3. 对抗性后缀（Adversarial Suffix）：在原始文本末尾添加 k 个额外的令牌（token）。通过贪心搜索，逐个确定这 k 个令牌，每次选择能使当前 L_d 增加最多的那个令牌。这是一种令牌级别的攻击，可能引入看似无关或混乱的内容。
这三种算法均通过贪心策略在离散空间中进行优化，确保了攻击的可行性和有效性，同时也代表了不同粒度（词、字符、令牌）的文本操控方式。
3.4 实验评估流程 研究进行了广泛且深入的实验以验证ICLPoison的有效性。 * 数据集：涵盖了多种文本分类任务，包括SST-2（情感分析）、CoLA（语言可接受性）、Emo（情绪分类）、AG‘s News（新闻主题分类）和Poem（诗歌情感分析）。 * 模型：测试了多个开源模型（Llama2-7B, Pythia-2.8B/6.9B, Falcon-7B, GPT-J-6B, MPT-7B）以及闭源的API模型（GPT-3.5-Turbo, GPT-4）。对于API模型，使用开源模型（如Llama2-7B）作为替代模型生成投毒数据，然后测试其对API模型的影响。 * 基线方法：与干净的ICL性能以及“随机标签翻转”（Random Label Flip，即随机改变示例的标签）基线进行比较。 * 评估指标：主要评估指标是ICL准确率。同时计算了困惑度（Perplexity）以评估投毒文本的自然度/可察觉性。 * 实验设置：默认扰动预算 k=5，使用5个示例进行ICL预测。攻击成功率（投毒率）考虑了从10%到100%的多种情况。此外，还评估了攻击的迁移性（用替代模型生成的毒数据攻击其他模型），以及对三种潜在防御方法（困惑度过滤、文本复述、语法检查）的鲁棒性。
第四， 主要研究结果与分析
实验取得了显著且一致的成果，强有力地证明了ICL在面对数据投毒攻击时的脆弱性。
4.1 ICLPoison攻击效果显著 在开源模型上的实验结果（如表1所示）表明，与干净数据相比，ICLPoison的三种攻击策略均能急剧降低ICL准确率。例如，在Llama2-7B模型上，SST-2任务的准确率从88.6%分别降至18.5%（同义词替换）、26.8%（字符替换）和20.4%（对抗性后缀）。而“随机标签翻转”基线仅带来轻微的性能下降（约6%）。这证实了通过针对性扭曲隐藏状态进行投毒的有效性。在五种攻击变体中，同义词替换和对抗性后缀通常比字符替换造成更严重的性能下降，分析认为这是因为在相同扰动预算下，前两者对文本语义和隐藏状态的改变更为剧烈。
4.2 对先进闭源模型的有效攻击 更具现实意义的是，使用Llama2-7B作为替代模型生成的投毒数据，成功迁移并影响了GPT-3.5-Turbo和GPT-4等先进闭源模型。如表1所示，攻击使得GPT-4在多个数据集上的ICL准确率下降了约10%。这证明即使攻击者无法接触目标模型的内部信息，ICLPoison依然构成实际威胁。同时，研究发现GPT-4对字符替换表现出特定敏感性。
4.3 攻击的迁移性与模型大小的影响 迁移性实验表明，使用一个替代模型（如Llama2-7B）生成的投毒数据，能够有效攻击其他不同架构和大小的模型。虽然攻击效果相比在替代模型本身上有所减弱，但仍能造成超过30%的准确率下降（例如在Pythia-2.8B上）。这凸显了攻击的广泛威胁。研究还发现，较小的模型（如Pythia-2.8B）通常比较大的模型更容易受到投毒攻击，表明模型容量可能与抗攻击鲁棒性存在关联。
4.4 低投毒率下的实用攻击 在实际攻击场景中，攻击者可能只污染数据集的一部分。实验表明，即使投毒率低至10%-20%，ICLPoison仍能导致ICL性能显著下降（如图2所示，在SST-2上下降超过10%-19%）。这进一步证明了攻击的现实危害性，即只需混入少量恶意样本即可破坏系统。
4.5 对现有防御方法的评估 为了检验攻击的鲁棒性，研究者评估了三种防御措施： 1. 困惑度过滤：投毒文本的困惑度通常高于干净文本（如表2），但同义词替换产生的文本困惑度增长相对较小，更难被此方法检测。 2. 文本复述：使用GPT-4对投毒文本进行复述。结果显示，该方法能有效缓解对抗性后缀的攻击（因为后缀常包含无关内容），但对同义词替换攻击的防御效果有限（因为语义基本保留）。例如，在SST-2上，对抗性后缀攻击后的准确率从20.4%恢复到80.2%，而同义词替换仅从18.5%恢复到52.1%。 3. 语法/拼写检查：使用Grammarly、Microsoft Editor等工具。实验发现，同义词替换攻击尤其能绕过这些检测工具（错误率与干净文本相近），显示出其隐蔽性。
这些结果共同指向一个核心结论：通过优化扰动以扭曲LLM的隐藏状态，能够高效、隐蔽地实施针对ICL的数据投毒攻击，现有的一些简易防御手段难以完全应对，特别是语义保留型的攻击（如同义词替换）。
第五， 研究结论与价值
本研究通过提出ICLPoison方法，首次系统性地揭示并实证了大型语言模型情境学习（ICL）范式在面对数据投毒攻击时存在的严重脆弱性。研究结论表明，攻击者可以在不了解受害者具体配置（黑盒）的情况下，通过操纵少量演示示例的文本，显著破坏ICL在下游任务上的预测性能。这种威胁在投毒率很低时依然存在，并且能够迁移到包括GPT-4在内的先进闭源模型。
该研究的价值体现在多个层面： * 科学价值：深化了对ICL内部工作机制（特别是隐藏状态作用）的理解，并将其与安全漏洞联系起来。为理解模型在推理阶段的动态脆弱性提供了新的视角。 * 安全实践价值：向LLM的研究者、开发者及使用者发出了明确的安全警示。随着ICL在医疗、金融、教育等关键领域的应用扩展，本研究强调必须将数据投毒纳入安全风险评估，并投入资源开发更强大的防御机制。 * 方法论价值：提出的ICLPoison框架为后续研究ICL安全提供了一个可扩展的基准。三种具体的攻击算法展示了不同粒度的攻击向量，为防御方案的设计和测试提供了多样化的挑战场景。
第六， 研究亮点
首创性：这是首篇系统研究针对ICL推理阶段数据投毒攻击的工作，填补了LLM安全研究中的一个重要空白。
方法新颖：创新性地提出通过最大化隐藏状态失真来设计攻击目标，巧妙解决了ICL缺乏显式训练目标的攻击难题。ICLPoison框架具有通用性和洞察力。
攻击有效且现实：实验不仅在开源模型上取得毁灭性效果，更成功迁移攻击了GPT-3.5和GPT-4，证明了威胁的现实性。同时验证了在低投毒率下的有效性。
分析全面深入：不仅证明了攻击有效性，还深入分析了不同扰动策略的效果差异、攻击的迁移性规律、模型大小的影响，并系统评估了多种潜在防御措施的效果与局限，为领域提供了丰富的洞见。
第七， 其他有价值的内容
研究还包含了详尽的补充实验（见附录），进一步支撑了其结论的稳健性。例如，研究了不同提示模板、不同演示示例数量对攻击效果的影响，结果表明攻击在不同配置下依然有效。此外，对校准（Calibration）和示例选择（Selection）等ICL增强技术的测试表明，这些方法虽然能提升干净数据下的性能，但并不能免疫于ICLPoison攻击，准确率依然会大幅下降。这强调了针对投毒攻击设计专用防御的必要性。研究者也坦诚指出了工作的局限性，例如当前方法需要访问替代模型的隐藏状态，未来需要探索完全黑盒的攻击方法，并对更多API模型进行测试。这些都为后续研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问