基于因果推断前门准则的语言模型后门攻击防御方法

分享自：
基于因果推断前门准则的语言模型后门攻击防御方法

期刊:Proceedings of the 41st International Conference on Machine Learning
本文介绍了一篇题为“causality based front-door defense against backdoor attack on language models”的研究论文。该研究由Yiran Liu*、Xiaoang Xu*、Zhiyi Hou、Yang Yu（通讯作者）共同完成，作者单位分别来自清华大学交叉信息研究院、哈尔滨理工大学计算机科学与技术学院、哈尔滨工业大学计算学部以及中国石油大学（北京）经济管理学院。该论文发表于第41届国际机器学习会议（Proceedings of the 41st International Conference on Machine Learning, Vienna, Austria. PMLR 235, 2024），收录于2024年。
这项研究属于人工智能安全，特别是自然语言处理模型防御领域。其核心目标是解决现有大语言模型所面临的重大安全威胁——后门攻击。后门攻击通过在模型训练数据中植入特定的“触发器”，并篡改相应标签，使模型在正常输入上表现良好，但在包含触发器的输入上产生攻击者指定的错误输出。现有防御方法通常依赖于对触发器形式（如特定词汇、句式）的假设，只能针对特定类型的攻击，难以应对现实中未知且多样的攻击手段。因此，研究者旨在开发一种不依赖于触发器形式假设的、普适性的防御框架。为实现这一目标，他们引入了因果推断理论作为新的视角，将后门攻击视为一种不可观测的混杂因子，并创新性地应用了“前门调整”原则来消除其影响，从而估计出输入与输出之间真实的因果效应。本研究旨在通过构建一种基于因果推理的防御框架，实现对多种类型后门攻击的有效、通用防御。
研究的详细工作流程基于一个名为“前门调整后门消除”（Front-door Adjustment for Backdoor Elimination, FABE）的三模块框架。整个流程可以分为以下几个主要步骤：
第一步，构建防御模型并生成前门变量。 这是FABE框架的核心环节。研究团队首先选取一个预训练的大语言模型（如Llama2-7B）作为“防御模型”的骨架。他们定义“前门变量”为一段与原始输入文本语义等价，且在任务预测上应与未受攻击的原始输入具有相同标签的文本。为了生成这样的文本，研究者为防御模型设计了一个固定的指令模板，指令要求模型在保留原意和语义完整性的前提下，对输入文本进行改写以增强流畅性和连贯性。通过向防御模型输入该指令和待防御的原始输入文本，模型生成回复，即候选的前门变量。为了提高生成质量和多样性，研究中采用了集束搜索技术，为每个输入生成多个候选前门变量。
第二步，因果效应估计。 此步骤的目的是利用前门变量和受害者模型（即待保护的可能已被植入后门的模型，如BERT、T5等）的输出来计算真实的因果概率P(y|do(x))。具体计算基于前门调整公式。该公式需要估计三个关键概率：1) P(z|x)：给定输入x生成前门变量z的概率。这通过防御模型在集束搜索中为每个候选变量z_j计算的得分（归一化后的对数概率）来近似。2) P(y|z, x‘)：在给定前门变量z和另一个独立同分布的假设输入x‘时，预测为y的概率。由于无法遍历所有x‘，研究采用了一种近似方法，使用受害者模型对z和另一个候选变量（这里将另一个候选变量视为x‘的代表）的预测概率的平均值来估计。3) P(x‘)：假设输入x‘的概率。研究中假设x‘来自与前门变量z语义等价的文本集合，并同样用防御模型对候选变量的归一化得分来近似。最终，将这些近似代入前门调整公式，得到一个可计算的表达式，用于估计在干预（排除后门混杂）下的预测概率。
第三步，指令微调以符合前门准则。 为了确保防御模型生成的前门变量z能够满足前门准则（即z与x语义等价，且对y的预测与干净x一致），研究者对防御模型进行了指令微调。微调使用了复合损失函数：1) 最大似然估计损失：旨在让模型学会遵循改写指令，生成与干净输入x_0语义一致的文本，满足语义等价性要求。2) 排序损失：这一损失函数旨在优化前门变量在任务预测上的表现。具体做法是，对模型生成的一批候选前门变量，利用受害者模型计算其预测输出与干净样本真实输出的KL散度，并根据KL散度大小对候选变量进行排序。排序损失鼓励模型为KL散度更小（即预测更接近干净样本）的候选变量分配更高的生成概率，从而引导模型生成那些能更好满足“预测一致性”要求的前门变量。通过结合这两种损失进行微调，防御模型被训练成能够生成既保持原意、又能有效“绕过”或“抵消”后门触发器影响的高质量前门变量。
研究对象与实验设置方面，研究使用了三个文本分类数据集：SST-2（情感分析）、Offenseval和HSOL（毒性检测）。选取了三种不同架构和规模的预训练模型作为受害者模型：BERT、T5和Llama2。为了全面评估防御效果，研究者采用了三种代表性的后门攻击基线方法进行攻击：BadNets（词级触发）、AddSent（句级触发）和SynBkd（句法级触发）。防御效果的对比基线选择了三种现有的测试时防御方法：ONION、RAP和STRIP。评估指标包括攻击成功率（Attack Success Rate, ASR，越低越好）和干净准确率（Clean Accuracy, CA，越高越好）。
研究的主要结果如下表所示（详见原文Table 2），并得出了以下关键发现：
在对抗多种攻击（BadNets, AddSent, SynBkd）、多种受害者模型（BERT, T5, Llama2）以及多个数据集（SST-2, Offenseval, HSOL）的全面实验中，FABE方法展现出卓越的防御性能。其攻击成功率从无防御时的平均93.63%大幅降低至15.12%。与最佳基线方法（ONION，平均ASR为66.61%）相比，防御效果提升了约2.91倍，在所有测试设置中均达到了最优水平，确立了新的防御标杆。尤其在对抗AddSent和SynBkd这类传统方法难以防御的句级和句法级攻击时，FABE表现尤为突出，常能将ASR降至10%以下。
在保证防御能力的同时，FABE对模型原有功能的损害较小。尽管在某些场景下其干净准确率并非最高，但在大多数数据集上仍优于或接近其他基线方法，表明该方法在消除后门影响的同时，能够较好地保留模型的正常任务性能。
研究者还通过消融实验深入分析了FABE各模块的作用。结果证明：1）仅使用预训练模型进行改写具有一定的防御效果；2）仅使用MLE损失进行微调可能对防御产生负面影响；3）加入排序损失能显著提升防御效果，因为它直接优化了前门变量在预测一致性上的表现；4）最终应用前门调整公式进行因果效应估计，是获得最佳防御性能的关键步骤。这一分析不仅验证了各个模块的必要性，也从因果理论角度解释了为什么一些基于改写但不进行因果调整的先前方法（如基于回译的方法）会失败——因为它们未能满足前门准则并完成前门调整来消除混杂效应。
研究的结论是，该工作提出了一种基于因果推断的、无需触发器形式先验知识的通用后门防御新框架FABE。该框架通过将后门攻击建模为不可观测的混杂因子，并创新性地利用大语言模型生成前门变量，进而应用前门调整原理来估计并执行真实的因果预测。理论分析和大量实验表明，该方法能够有效抵御词级、句级和句法级等多种后门攻击，显著降低了攻击成功率，且对模型原有性能影响较小，在防御通用性上实现了重要突破。
本研究的价值体现在多个层面。在科学价值方面，它首次将因果推断中的前门调整原理系统性地应用于语言模型的后门防御问题，为理解后门攻击的机制和设计防御方法提供了一个全新的理论框架。它揭示了现有依赖特定触发器特征的防御方法本质上是应用了后门调整原理，而一旦攻击类型未知（混杂不可观测），这些方法便失效，从而清晰地指出了传统方法的局限性和本方法的创新点。在应用价值方面，FABE提供了一种强大的、即插即用的防御工具，可以保护部署在各种下游任务中的语言模型免受复杂和未知的后门攻击，对于保障人工智能系统，特别是大语言模型在实际应用中的安全性和可靠性具有重大意义。
本研究的亮点突出。首先是方法论的创新性：创造性地将因果推断的“前门调整”思想与大型语言模型的生成能力相结合，构建了一个不依赖于攻击假设的通用防御范式。其次是防御效果的卓越性：在广泛、严格的实验中取得了当前最优的防御性能，尤其是对复杂攻击的有效抵御。再次是理论深度的贡献：不仅提出了实用方法，还从因果理论层面给出了清晰的解释，并将防御效果归因于对前门准则的遵守和前门调整公式的应用，这使得整个工作具有坚实的理论基础和解释性。最后，研究还探讨了方法的局限性（如计算开销、任务泛化性）和未来的改进方向（如模型压缩、与其他方法结合），并初步验证了FABE对自适应攻击的有效性及与其他防御方法结合使用的潜力，展现了研究的严谨性和前瞻性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问