针对后门与对抗攻击的统一鲁棒性研究

分享自：
针对后门与对抗攻击的统一鲁棒性研究

期刊:IEEE Transactions on Pattern Analysis and Machine IntelligenceDOI:10.1109/TPAMI.2024.3392760
近日，IEEE Transactions on Pattern Analysis and Machine Intelligence 期刊（第46卷，第12期，2024年12月）发表了一项由西安电子科技大学智能人机交互与穿戴技术陕西省重点实验室的Zhenxing Niu、Yuyao Sun、Qiguang Miao，阿里巴巴达摩院的Rong Jin，以及Wormpex AI Research的Gang Hua共同完成的突破性研究。这篇题为《Towards Unified Robustness against Both Backdoor and Adversarial Attacks》的论文，首次揭示了后门攻击（Backdoor Attack）与对抗攻击（Adversarial Attack）之间深层的、普遍的内在联系，并基于此提出了一个革命性的统一防御框架——渐进式统一防御算法（Progressive Unified Defense, PUD），能够同时抵御这两种不同类型的威胁，且无需依赖完全干净的辅助数据集。
学术背景与研究目标 深度学习模型在安全关键领域的广泛应用，使其安全性面临严峻挑战。长期以来，后门攻击与对抗攻击被视为两类截然不同的安全问题，分别对应训练时攻击和推理时攻击，其防御研究也通常是分开进行的。后门攻击通过在训练数据中植入特定的“触发器”（Trigger），使得模型在处理正常数据时表现正常，但一旦遇到包含触发器的输入，便会将其误分类到攻击者预设的目标类别。而对抗攻击则是在模型训练完成后，通过对输入添加人眼难以察觉的微小扰动，从而在推理阶段诱导模型做出错误判断。
虽然已有研究尝试同时应对这两种威胁，但往往收效有限，例如传统的对抗训练（Adversarial Training）并不能有效防御后门攻击。更为重要的是，以往工作大多将两者视为独立问题，极少探究其内在关联。本研究正是基于此现状，旨在回答一个核心问题：这两种攻击之间是否存在未被发现的本质联系？若能揭示这种联系，是否可能发展出一种统一、高效的防御机制？该研究的核心目标即在于：1）揭示后门攻击与对抗攻击之间的深层联系；2）基于此联系，提出一个能同时提升模型对两种攻击鲁棒性的统一防御算法；3）使该算法具备实用性，即使在没有完全干净辅助数据集的情况下，也能有效抵御包括动态、内容感知型攻击在内的最新后门攻击。
详细研究流程与方法 该研究首先从一系列现象观察入手，进而提出理论解释，最后设计并验证了统一的防御算法。研究流程可概括为三个阶段：现象发现与理论分析、统一防御算法（PUD）设计、以及系统性实验评估。
第一阶段：现象发现与理论分析 研究者没有按照常规在干净模型上生成对抗样本，而是创新性地对一个已被植入后门的“感染模型”（Infected Model）进行无目标对抗攻击，生成对抗样本。他们惊讶地发现，感染模型生成的对抗样本与干净模型生成的对抗样本行为迥异。
实验对象与处理：研究在多个标准数据集（CIFAR-10， GTSRB， ImageNet子集）上，使用多种主流后门攻击方法（如BadNets, Blend, SIG, WaNet, Dynamic Attack）训练了不同的感染模型。对于每个感染模型，研究者从测试集中随机采样大量干净图像，使用PGD等方法生成无目标对抗样本。
核心发现与结果：关键观察结果有二。其一，感染模型的对抗样本被分类为后门目标标签的概率极高（如图1(a)所示，远超随机分布）。相反，干净模型的对抗样本被误分类到各个类别的概率则大致均匀。这一现象在不同攻击方法、攻击设置（All-to-One, All-to-All）、不同数据集上均普遍存在（如图2、6所示）。其二，感染模型对抗样本的特征与后门触发图像的特征高度相似。通过可视化特征图（如图3）和计算特征间L2距离（如表I、II所示），研究者定量化地证明，感染模型对抗样本与触发器图像的特征距离，远小于它与干净模型对抗样本的特征距离。这一发现表明，对抗样本和触发器图像很可能激活了模型内同一批被称为“后门神经元”的特定结构。
理论分析：为了深入解释这一现象，研究者在线性模型（逻辑回归）的假设下进行了理论推导。通过分析在感染模型上生成对抗扰动的过程，他们证明了该扰动在触发器方向上的投影占据了相当大的比例（定理1）。这意味着对抗扰动本身与触发器模式高度相似，从而从理论上解释了为何感染模型的对抗样本特征会与触发器图像特征如此接近。
第二阶段：统一防御算法（PUD）设计 基于上述核心发现——感染模型的对抗样本具有“类触发器特征”但携带“任意类别标签”——研究者提出了渐进式统一防御算法（PUD）。其核心思想是：利用感染模型的对抗样本来“冲刷”后门，因为用这些特征类似触发器、但标签各异的样本微调模型，能够打破后门攻击试图建立的“触发器-目标标签”之间的强关联。
PUD算法的整体流程如算法1所示，它是一个“模型-数据”交替净化的渐进式过程。给定一个感染模型和一个可能含有污染样本的初始辅助数据集，PUD包含五个核心步骤： 1. 学生模型净化（Step-1）：利用当前辅助数据集生成感染模型的对抗样本，然后用这些对抗样本微调（Fine-tuning）当前模型。这一步旨在利用对抗样本来擦除后门。 2. 性能恢复（Step-2）：使用辅助数据集（主要是其中的干净样本）再次微调上一步得到的模型，以恢复其在干净样本上的分类准确率（ACC）。 3. 教师模型生成（Step-3）：采用均值教师（Mean Teacher）机制，通过指数移动平均（EMA）聚合之前迭代中产生的所有学生模型的参数，形成一个更强大、更稳定的教师模型。这不仅增强了后门擦除效果，也显著提升了模型的对抗鲁棒性。 4. 辅助数据净化（Step-4）：利用净化后的教师模型（近似于干净模型）和原始的感染模型，对辅助数据集进行清洗。这里采用了两种互补的策略：一是基于预测一致性的策略，计算每个样本在两个模型下预测特征（logits）的余弦相似度，相似度低的样本更可能是污染样本；二是结合现有的数据过滤方法SPECTRE。两者结合能有效识别并移除辅助数据中的污染图像。 5. 后门反学习（Step-5）：不简单丢弃被识别出的污染图像，而是通过机器反学习（Machine Unlearning）技术，利用这些已知的污染样本来进一步削弱模型中的后门关联。
整个算法迭代进行。随着迭代的推进，感染模型中的后门被逐渐擦除，模型变得越来越“干净”，此时第一步中的对抗样本微调便自然地演变为标准的对抗训练过程，从而同时提升了模型的对抗鲁棒性。这正是PUD能够统一防御两种攻击的关键所在。
第三阶段：系统性实验评估 研究者在多种数据集、多种攻击设置下进行了广泛的实验，以验证PUD的有效性。
后门防御评估（模型修复场景）：与标准微调、Fine-Pruning、Neural Cleanse (NC)、Neural Attention Distillation (NAD)、Adversarial Neuron Pruning (ANP)等先进方法对比。实验结果表明，即使在辅助数据集不完全干净的情况下，PUD也能显著降低攻击成功率（ASR），同时保持较高的干净准确率（ACC），在大多数攻击（尤其是动态攻击如WaNet, Dynamic Attack）上优于现有方法（如表III-VI所示）。PUD相比其前身PBE算法有显著提升，这得益于其引入的均值教师机制、SPECTRE数据过滤以及后门反学习三个关键技术（如表VIII消融实验所示）。研究还展示了PUD在数据净化（如图9、11，表VII、IX）和模型净化（如图10）方面的渐进式改进过程。
后门防御评估（数据过滤场景）：通过简单的预处理，PUD也能应用于数据过滤场景。与Spectral Signatures和SPECTRE等直接过滤方法相比，PUD最终训练出的模型在防御性能上（ASR和ACC）具有显著优势（如表X-XII所示）。
对抗防御评估：将PUD与最先进的对抗防御方法——对抗训练（AT）和TRADES进行对比。实验结果显示，PUD在CIFAR-10、GTSRB和ImageNet子集上取得的鲁棒准确率（RACC）与这些专门化的对抗防御方法具有竞争力，甚至在部分数据集上表现更优（如表XIII-XV所示），证明了其统一防御的有效性。
结论与价值 本研究得出了几个具有里程碑意义的结论：1）揭示了后门攻击与对抗攻击之间存在深刻且普遍的内在联系，即感染模型的对抗样本在特征空间上与后门触发器图像高度相似。2）基于此联系，首次提出了能够同时、协同防御这两种攻击的统一框架（PUD）。3）PUD算法具有高度的实用性，它不要求辅助数据集完全干净，并能有效抵御包括动态攻击在内的最新后门攻击，同时还能提升模型的对抗鲁棒性。
研究的亮点与创新性 本研究的主要亮点和创新性体现在：理论发现层面：首次系统地发现并理论证明了后门攻击与对抗攻击之间的本质联系，为理解深度学习模型的脆弱性提供了一个全新的统一视角。方法创新层面：提出了首个真正意义上的“统一防御”算法PUD，其渐进式、模型-数据交替净化、均值教师增强以及利用污染数据进行反学习的机制，设计精巧且高效。实用价值层面：突破了现有后门防御必须依赖完全干净数据的苛刻假设，更符合现实防御场景（防御者往往无法确定哪些数据是干净的），极大地提升了防御方法的可用性和鲁棒性。性能卓越：在广泛的实验中，PUD在同时应对最先进的后门攻击和对抗攻击方面，均展示出优于或可比肩当前最先进专项防御方法的性能。
其他有价值的贡献 该工作是作者团队之前PBE工作的重大扩展，通过引入均值教师机制、增强的数据净化策略以及后门反学习，不仅提升了后门防御效果，更赋予了模型对抗鲁棒性，且摆脱了对原始训练数据的依赖。论文中详尽的现象展示、理论推导、消融实验和渐进过程分析，为整个领域的后续研究提供了坚实的基准和清晰的技术路线。这项研究有望激励学术界重新审视并联合研究后门与对抗安全问题，推动开发出更全面、更根本的深度学习模型安全加固方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问