近日,IEEE Transactions on Pattern Analysis and Machine Intelligence 期刊(第46卷,第12期,2024年12月)发表了一项由西安电子科技大学智能人机交互与穿戴技术陕西省重点实验室的Zhenxing Niu、Yuyao Sun、Qiguang Miao,阿里巴巴达摩院的Rong Jin,以及Wormpex AI Research的Gang Hua共同完成的突破性研究。这篇题为《Towards Unified Robustness against Both Backdoor and Adversarial Attacks》的论文,首次揭示了后门攻击(Backdoor Attack)与对抗攻击(Adversarial Attack)之间深层的、普遍的内在联系,并基于此提出了一个革命性的统一防御框架——渐进式统一防御算法(Progressive Unified Defense, PUD),能够同时抵御这两种不同类型的威胁,且无需依赖完全干净的辅助数据集。
学术背景与研究目标 深度学习模型在安全关键领域的广泛应用,使其安全性面临严峻挑战。长期以来,后门攻击与对抗攻击被视为两类截然不同的安全问题,分别对应训练时攻击和推理时攻击,其防御研究也通常是分开进行的。后门攻击通过在训练数据中植入特定的“触发器”(Trigger),使得模型在处理正常数据时表现正常,但一旦遇到包含触发器的输入,便会将其误分类到攻击者预设的目标类别。而对抗攻击则是在模型训练完成后,通过对输入添加人眼难以察觉的微小扰动,从而在推理阶段诱导模型做出错误判断。
虽然已有研究尝试同时应对这两种威胁,但往往收效有限,例如传统的对抗训练(Adversarial Training)并不能有效防御后门攻击。更为重要的是,以往工作大多将两者视为独立问题,极少探究其内在关联。本研究正是基于此现状,旨在回答一个核心问题:这两种攻击之间是否存在未被发现的本质联系?若能揭示这种联系,是否可能发展出一种统一、高效的防御机制?该研究的核心目标即在于:1)揭示后门攻击与对抗攻击之间的深层联系;2)基于此联系,提出一个能同时提升模型对两种攻击鲁棒性的统一防御算法;3)使该算法具备实用性,即使在没有完全干净辅助数据集的情况下,也能有效抵御包括动态、内容感知型攻击在内的最新后门攻击。
详细研究流程与方法 该研究首先从一系列现象观察入手,进而提出理论解释,最后设计并验证了统一的防御算法。研究流程可概括为三个阶段:现象发现与理论分析、统一防御算法(PUD)设计、以及系统性实验评估。
第一阶段:现象发现与理论分析 研究者没有按照常规在干净模型上生成对抗样本,而是创新性地对一个已被植入后门的“感染模型”(Infected Model)进行无目标对抗攻击,生成对抗样本。他们惊讶地发现,感染模型生成的对抗样本与干净模型生成的对抗样本行为迥异。
第二阶段:统一防御算法(PUD)设计 基于上述核心发现——感染模型的对抗样本具有“类触发器特征”但携带“任意类别标签”——研究者提出了渐进式统一防御算法(PUD)。其核心思想是:利用感染模型的对抗样本来“冲刷”后门,因为用这些特征类似触发器、但标签各异的样本微调模型,能够打破后门攻击试图建立的“触发器-目标标签”之间的强关联。
PUD算法的整体流程如算法1所示,它是一个“模型-数据”交替净化的渐进式过程。给定一个感染模型和一个可能含有污染样本的初始辅助数据集,PUD包含五个核心步骤: 1. 学生模型净化(Step-1):利用当前辅助数据集生成感染模型的对抗样本,然后用这些对抗样本微调(Fine-tuning)当前模型。这一步旨在利用对抗样本来擦除后门。 2. 性能恢复(Step-2):使用辅助数据集(主要是其中的干净样本)再次微调上一步得到的模型,以恢复其在干净样本上的分类准确率(ACC)。 3. 教师模型生成(Step-3):采用均值教师(Mean Teacher)机制,通过指数移动平均(EMA)聚合之前迭代中产生的所有学生模型的参数,形成一个更强大、更稳定的教师模型。这不仅增强了后门擦除效果,也显著提升了模型的对抗鲁棒性。 4. 辅助数据净化(Step-4):利用净化后的教师模型(近似于干净模型)和原始的感染模型,对辅助数据集进行清洗。这里采用了两种互补的策略:一是基于预测一致性的策略,计算每个样本在两个模型下预测特征(logits)的余弦相似度,相似度低的样本更可能是污染样本;二是结合现有的数据过滤方法SPECTRE。两者结合能有效识别并移除辅助数据中的污染图像。 5. 后门反学习(Step-5):不简单丢弃被识别出的污染图像,而是通过机器反学习(Machine Unlearning)技术,利用这些已知的污染样本来进一步削弱模型中的后门关联。
整个算法迭代进行。随着迭代的推进,感染模型中的后门被逐渐擦除,模型变得越来越“干净”,此时第一步中的对抗样本微调便自然地演变为标准的对抗训练过程,从而同时提升了模型的对抗鲁棒性。这正是PUD能够统一防御两种攻击的关键所在。
第三阶段:系统性实验评估 研究者在多种数据集、多种攻击设置下进行了广泛的实验,以验证PUD的有效性。
结论与价值 本研究得出了几个具有里程碑意义的结论:1)揭示了后门攻击与对抗攻击之间存在深刻且普遍的内在联系,即感染模型的对抗样本在特征空间上与后门触发器图像高度相似。2)基于此联系,首次提出了能够同时、协同防御这两种攻击的统一框架(PUD)。3)PUD算法具有高度的实用性,它不要求辅助数据集完全干净,并能有效抵御包括动态攻击在内的最新后门攻击,同时还能提升模型的对抗鲁棒性。
研究的亮点与创新性 本研究的主要亮点和创新性体现在:理论发现层面:首次系统地发现并理论证明了后门攻击与对抗攻击之间的本质联系,为理解深度学习模型的脆弱性提供了一个全新的统一视角。方法创新层面:提出了首个真正意义上的“统一防御”算法PUD,其渐进式、模型-数据交替净化、均值教师增强以及利用污染数据进行反学习的机制,设计精巧且高效。实用价值层面:突破了现有后门防御必须依赖完全干净数据的苛刻假设,更符合现实防御场景(防御者往往无法确定哪些数据是干净的),极大地提升了防御方法的可用性和鲁棒性。性能卓越:在广泛的实验中,PUD在同时应对最先进的后门攻击和对抗攻击方面,均展示出优于或可比肩当前最先进专项防御方法的性能。
其他有价值的贡献 该工作是作者团队之前PBE工作的重大扩展,通过引入均值教师机制、增强的数据净化策略以及后门反学习,不仅提升了后门防御效果,更赋予了模型对抗鲁棒性,且摆脱了对原始训练数据的依赖。论文中详尽的现象展示、理论推导、消融实验和渐进过程分析,为整个领域的后续研究提供了坚实的基准和清晰的技术路线。这项研究有望激励学术界重新审视并联合研究后门与对抗安全问题,推动开发出更全面、更根本的深度学习模型安全加固方案。