分享自:

基于熵的污染数据集分离的CLIP引导后门防御

期刊:Proceedings of the 33rd ACM International Conference on MultimediaDOI:10.1145/3746027.3754860

本研究报告旨在介绍由Binyan Xu、Fan Yang、Xilin Dai、Di Tang、Kehuan Zhang五位学者共同完成,并于2025年10月27日在第33届ACM国际多媒体会议(MM ‘25)上发表的一篇题为《CLIP-Guided Backdoor Defense through Entropy-Based Poisoned Dataset Separation》的原创性学术研究论文。该研究主要聚焦于人工智能安全领域,特别是深度学习模型的后门攻击防御。其核心背景在于,尽管深度学习模型在许多关键领域得到广泛应用,但其训练过程极易受到后门攻击的威胁。攻击者通过在训练数据中植入少量被投毒的数据样本,即可在模型中植入隐蔽的后门。当模型部署后,攻击者通过呈现带有特定触发器的输入,就能恶意操控模型的输出,造成严重的安全风险。

当前,针对训练数据已被投毒场景的后门防御方法主要分为两类:基于干净模型的防御基于可疑模型的防御。然而,这两类方法均存在明显局限性。基于干净模型的防御(如DBD、ASD)通常依赖于计算密集的自监督或半监督学习来训练一个干净的“参考模型”,以识别投毒样本。这种方法计算成本高昂,且对干净标签后门攻击(如Sig、Ctrl)效果不佳,因为此类攻击中样本的标签未被篡改,导致干净模型也可能学到后门关联。另一方面,基于可疑模型的防御(如ABL、EP)直接分析被攻击模型的内部行为或训练动态来识别后门。但这类方法难以应对干净图像后门攻击(如Flip、GCB),因为此类攻击中的投毒图像视觉上几乎与干净图像无差异,使得基于分布或激活异常的检测失效。因此,该研究旨在提出一种能够高效、有效应对包括上述先进攻击在内的多种后门攻击的新型防御方法。其目标是在无需大量干净数据的前提下,从已被投毒的数据集中有效分离并消除后门,同时保持模型在干净数据上的性能。为此,作者提出了名为CLIP引导的后门防御的新方法。

CGD的核心工作流程主要分为两个紧密相连的阶段:CLIP引导的无数据分割阶段CLIP引导的后门遗忘阶段。在第一阶段前,研究者假设模型使用者已经使用一个可能被投毒的数据集训练了一个“可疑模型”。CGD的整个防御过程即基于此可疑模型和一个公开可获取的CLIP模型展开。

第一阶段:CLIP引导的无数据分割。此阶段的目标是利用熵标准,将潜在被投毒的数据集分割为“干净”子集和“被触发”子集。其新颖性在于巧妙地利用预训练的CLIP模型作为一个“弱但干净”的零样本分类器,无需针对特定任务进行额外训练。具体操作如下:对于数据集中的每一个样本,研究者同时使用CLIP模型和可疑模型对其进行预测,并计算两个关键的熵值。首先,针对投毒标签后门攻击,计算CLIP预测与样本可疑标签之间的交叉熵损失。若样本标签与其真实语义内容不符(即被投毒),CLIP对其的预测置信度会较低,导致该熵值较高。其次,针对干净标签后门攻击,计算可疑模型在训练早期对样本正确标签的预测交叉熵损失。由于模型会迅速学习到触发器与目标标签之间的强关联,导致对带有触发器的样本预测置信度过高,因此该熵值会异常低。研究者在文中通过图3展示了这一现象。接着,为了避免不同数据集和攻击类型下熵值绝对大小的差异,研究者将熵值转换为百分位等级。基于预设的阈值σ₁和σ₂,他们构建了一个二维的熵分布图。位于图中左上区域(即CLIP熵值低、可疑模型熵值高)的样本被划入干净子集Dc;而位于右下区域(即CLIP熵值高或可疑模型熵值低)的样本则被划入被触发了集Dp;其余样本构成混合子集。为防止类别不平衡,研究者还对干净子集进行了过采样以匹配原始数据集的标签分布。这一阶段的数据分割是整个防御成功的基础。

第二阶段:CLIP引导的后门遗忘。在成功分割数据后,研究者设计了一个精细的微调流程,以消除可疑模型中的后门。此过程结合了三种损失函数,其设计具有明确的理论依据,并通过消融实验验证了其必要性。首先是重新学习损失,该损失作用于干净子集Dc,使用标准的交叉熵损失来强化模型对干净样本的正确分类能力,确保模型的核心性能不受损害。其次是遗忘损失,该损失作用于被触发了集Dp,采用负交叉熵损失。这相当于惩罚模型对那些被怀疑带有触发器的样本做出高置信度的预测,从而主动削弱和破坏模型中可能存在的触发器-标签关联。最后是CLIP引导的神经蒸馏损失,该损失同样作用于被触发了集Dp。其核心思想是将CLIP模型对于这些样本的预测logits作为一个“干净”的指导信号,通过最小化可疑模型logits与CLIP logits之间的KL散度,引导可疑模型的预测向CLIP的零-shot干净预测对齐。该损失为正则化项,提供了一个正向的学习目标,防止模型在遗忘过程中失去方向。总损失函数是上述三项损失的加权和。研究者设定了一个较小的微调轮次K,并设置了早停机制以防止干净精度过度下降。通过这种组合优化,CGD旨在同时达成三个目标:保持干净精度、消除后门效应、以及平滑地将模型预测导向干净行为。

为了全面评估CGD的有效性、效率及鲁棒性,研究者在四个基准数据集上进行了广泛的实验,涵盖了多达11种不同类型的后门攻击。实验结果清晰地证明了该方法的优越性。

在主要性能评估中,研究者将CGD与八种最先进的基于投毒数据的防御方法进行了比较。如表1所示,在CIFAR-10数据集上,CGD在对抗所有11种攻击时,均将攻击成功率平均降低至惊人的0.2%,同时在所有防御方法中保持了最高的平均干净精度,仅比无防御基线平均下降了1.5%(部分情况下CA甚至有所提升)。相比之下,其他防御方法在不同攻击类型上存在明显短板:例如,基于自监督学习的DBD、ASD等方法在面对Ctrl、Sig等干净标签攻击时,ASR仍高达近100%;而基于训练动态的ABL和基于神经元剪枝的EP等方法则对Flip、GCB等干净图像攻击防御效果甚微。在效率方面,如表2所示,在已经训练好可疑模型的前提下,CGD完成数据分割和后门遗忘的总时间不到3分钟,其效率显著优于需要数千个epoch进行自监督学习的DBD等方法,与最快的防御方法之一EP相当,但CGD同时具备了有效分离干净数据的能力。

研究的另一项重要贡献是拓展了基于干净数据的防御方法的适用场景。如表3所示,研究者利用CGD从被投毒数据集中分割出的干净子集,成功地驱动了原本需要外部少量干净数据才能工作的防御方法,如精细剪枝模式连接修复对抗性神经元剪枝。实验结果表明,使用CGD分割出的干净子集(通常占比远高于传统假设的5%)来运行这些防御,其效果甚至能超越使用5%独立干净数据作为基准的方法,这为解决实际中干净数据难以获取的困境提供了新颖且实用的思路。

研究还深入探讨了CGD的鲁棒性和安全性。首先,他们考察了CLIP模型自身性能对防御效果的影响。实验表明,即使在CLIP的零样本准确率被人为降低至极低水平的情况下,CGD仍然能有效防御绝大多数攻击。如图6所示,在CIFAR-100和Tiny-ImageNet上,即使CLIP准确率低至约10%,CGD仍能将ASR控制在5%以下。其次,研究者考虑了最坏情况,即CLIP模型本身也可能被植入后门。他们测试了触发器不同、目标类别不同等三种CLIP被后门攻击的场景。结果如表8所示,CGD仍然能够成功移除可疑模型中的原始后门,而不会将CLIP自身的后门“传染”给可疑模型。这主要得益于可疑模型自身的熵分析仍能有效识别出原始攻击的触发器。

最后,研究者评估了CGD对潜在适应性攻击的抵抗能力。他们假设攻击者知晓CGD的防御策略,并尝试设计能够绕过熵分析的攻击,例如增加触发器在可疑模型中的熵,或降低其在CLIP模型中的熵。实验表明,即使是针对CGD设计的自适应Sig攻击和特征混合后门攻击,CGD依然能够将其ASR显著降低至2.4%以下,展现了强大的鲁棒性。

本研究的核心结论是提出并验证了CGD,一种高效、通用且鲁棒的后门防御框架。其科学价值在于创造性地利用公开的、通用的多模态预训练模型作为参考基准,通过基于熵的双模型分析,统一应对了传统防御方法难以处理的多种先进后门攻击变体。该方法避免了昂贵的再训练过程,并在理论上和实验上证明了其有效性。其应用价值极为显著:为现实世界中深度学习模型的安全训练和部署提供了一个实用、可扩展的解决方案,特别是在训练数据来源不可信、难以获取独立干净验证集的场景下。该方法不仅可以直接用于后门清除,还能赋能一系列原本依赖于干净数据的现有防御技术,极大地拓展了后门防御工具箱的适用范围。

本研究的亮点突出体现在以下几个方面:第一,方法新颖:首次将CLIP模型作为一种“弱监督信号”系统地应用于单模态图像分类模型的后门防御,开辟了利用通用基础模型增强特定领域模型安全性的新方向。第二,性能卓越:在涵盖四大类共11种攻击的广泛实验中,实现了接近彻底清除后门的效果,同时保持了最高的模型实用性能,综合表现超越了所有对比方法。第三,效率与通用性兼备:防御过程计算开销极低,且通过熵分割策略,成功地将依赖干净数据的防御方法迁移到了纯投毒数据的场景,具有重要的实践意义。第四,鲁棒性分析全面深入:不仅评估了标准攻击下的表现,还深入探讨了在CLIP模型性能不佳甚至自身被后门攻击的极端情况下的防御能力,以及对针对性适应性攻击的抵抗能力,论证充分,增强了方法的可信度。CGD为深度学习安全社区贡献了一个兼具创新性、有效性和实用性的重要工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com