分享自:

通过注入主动防御性后门来缓解后门攻击

期刊:38th conference on neural information processing systems (NeurIPS 2024)

本文档为发表在NeurIPS 2024会议上的学术论文,题为《Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor》。研究由香港中文大学(深圳)数据科学学院的魏绍魁、查宏源和吴宝元(通讯作者)团队完成。研究聚焦于人工智能安全领域,特别是深度学习模型面临的后门攻击(Backdoor Attack)威胁及其防御。当前,后门攻击通过在训练数据中投毒,使得模型在正常输入上表现良好,但对含有特定触发模式的输入则被强制输出攻击者预设的目标标签。传统的防御策略多采用“检测并移除/遗忘”可疑中毒样本的思路,但该方法依赖特定假设且检测过程复杂、成本高昂。本研究提出了一种全新的主动防御范式,称为主动防御性后门(Proactive Defensive Backdoor, PDB)。其核心思想是:利用防御者在控制训练过程中的“主场优势”,主动向模型中注入一个由防御者自己设计、控制的防御性后门。该防御性后门旨在训练过程中压制恶意后门,同时在推理阶段能够恢复原始任务的正常预测。

主要作者与机构及发表信息

  • 主要作者:Shaokui Wei(魏绍魁), Hongyuan Zha(查宏源), Baoyuan Wu*(吴宝元,通讯作者)。
  • 所属机构:香港中文大学(深圳)数据科学学院,深圳市人群智能赋能低碳能源网络重点实验室。
  • 发表期刊/会议:38th Conference on Neural Information Processing Systems (NeurIPS 2024)。

学术背景与目标

领域:对抗性机器学习,特别是深度学习模型安全中的后门攻击与防御。 研究动机:深度神经网络(DNNs)已在人脸识别、自动驾驶和医疗影像分析等关键领域广泛应用,但其安全性受到严重挑战。数据投毒后门攻击因其隐蔽性和巨大破坏力,对现实世界机器学习系统的安全构成了严峻威胁。现有的“训练中”防御方法(In-training Defense)大多遵循检测并缓解中毒样本影响的思路。然而,这些方法存在显著局限:首先,它们通常依赖于特定假设(如中毒样本在特征空间可分性或早期学习效应),这些假设在面对更复杂的攻击时可能失效,导致防御性能下降。其次,许多方法需要对训练流程进行复杂修改,显著增加了训练成本。本研究旨在打破传统范式,提出一种不依赖于中毒样本检测、更简洁有效的防御方案。 研究目标:设计一种主动防御机制,在不假设攻击者策略(恶意触发器、目标标签未知)的前提下,通过向模型中注入一个防御者可控的“防御性后门”,在训练过程中压制潜在的恶意后门,并能在推理时保证模型在原始任务上的正常效用。

研究方法与工作流程详解

本研究的工作流程主要分为设计原则制定、防御性后门构建、模型训练与增强、以及推理阶段四个关键环节。 第一环节:防御性后门设计原则制定。 为确保防御有效且实用,研究者首先分析了有效防御性后门应具备的目标,并提出了四项核心设计原则:1)可逆性(Reversibility):防御性后门必须是可逆的,即当防御触发器出现时,模型输出能通过一个逆映射恢复到真实标签,以保证模型原始任务性能。2)攻击者不可及性(Inaccessibility to attackers):防御触发器必须精心设计,使其无法被潜在攻击者复制或通过逆向工程技术发现。3)对模型性能影响最小(Minimal impact on model performance):防御触发器的嵌入应尽量保留原始数据的核心特征,以确保可逆恢复的准确性。4)对其他后门的抵抗力(Resistance against other backdoors):防御性后门自身应足够强大,能够抵抗包括已知及未来可能出现的多种后门攻击。 第二环节:防御性后门的具体构建。 基于上述原则,研究者设计了一套具体的实施方案: * 目标标签映射(遵循原则1):采用一个双射函数h: Y→Y 来定义防御性后门的目标标签。对于一个标签为y的干净样本,其被注入防御触发器后的目标标签为h(y)。在推理时,则应用逆映射h⁻¹来恢复真实标签。文中采用的具体函数是 h(y) = (y + 1) mod k,其中k是类别总数。例如,对于10分类任务(k=10),如果一张真实标签为0的图像被贴上防御触发器,模型训练的目标就是将其分类为1;在推理时,若模型对带有防御触发器的输入输出1,则通过h⁻¹(1) = (1-1) mod 10 = 0 恢复为真实标签0。这种设计确保了标签可逆,同时操作简便。 * 触发器设计(遵循原则2和3):研究者利用了防御者的“主场优势”,设计了像素值超出常规图像范围(如[0,1])的补丁式触发器。例如,对于一个像素值范围在[0,1]的图像,触发器区域的像素值被设置为2。这样设计的优势在于:首先,在常规图像数据分布([0,1])下,这种触发器难以被自然生成,攻击者难以复制;其次,这种超出范围的修改在图像预处理或可视时可能被视为异常,但对模型训练而言是有效的强信号。为了最小化对原始内容的影响,触发器的位置需要谨慎选择,以避免覆盖图像的核心语义区域。 * 后门增强策略(遵循原则4):为确保防御性后门能在训练中压倒恶意后门,研究者提出并应用了多种增强策略。这得益于防御者能完全控制训练过程的优势,这是攻击者所不具备的。增强方法包括:使用更大的触发器面积、对防御性中毒样本进行数据增强(如添加噪声)、以及增加防御性样本在训练批次中的采样权重。 第三环节:模型训练流程。 1. 数据准备:防御者持有一个小的干净数据集D_cl(例如,占总训练数据10%)。对于D_cl中的每一个干净样本(x, y),通过注入防御触发器Δ₁并应用目标映射函数h(y),生成一个防御性中毒样本(x⊕Δ₁, h(y))。所有这些样本构成防御性中毒数据集 D̂_def。同时,防御者面临一个可能已被恶意投毒的训练数据集 D_tr。 2. 联合训练:使用D_tr和D̂_def的并集来训练模型。训练目标函数被设计为三项损失的加权和:第一项是在原始(可能中毒的)数据集 D_tr 上的标准分类损失。第二项是在防御性中毒数据集 D̂_def 上的损失,其目的是成功植入防御性后门(即让模型学习到“看到Δ₁就输出h(y)”的关联)。第三项是增强损失,对防御性中毒样本应用变换τ(如加性噪声:τ(x) = x + 0.1·ϵ, ϵ ∼ N(0,1))后计算损失,目的是增强防御性后门的鲁棒性。通过调整第二项和第三项的权重系数(λ₁和λ₂),以及增加 D̂_def 中样本在每个训练周期内的重复采样次数(例如5次),可以强化防御性后门在模型中的记忆强度。 第四环节:推理阶段流程。 在模型部署使用阶段,对于任何一个待预测的输入样本x,首先会主动为其嵌入防御触发器Δ₁,得到 x⊕Δ₁。然后将此样本输入训练好的模型,得到预测输出 f_θ(x⊕Δ₁)。最后,对预测结果应用逆映射 h⁻¹,即计算 h⁻¹(f_θ(x⊕Δ₁)),得到该样本的真实标签预测。这个过程确保了无论输入是否潜藏恶意触发器,只要防御触发器被嵌入,模型的最终输出都将是防御性后门机制(及其逆运算)控制下的结果,从而压制了恶意后门。

主要实验结果及分析

研究者在多个基准数据集(CIFAR-10, Tiny ImageNet, GTSRB)和模型架构(PreAct-ResNet18, VGG19-Bn, ViT-B-16)上,对提出的PDB方法进行了全面评估,并与五种先进的“训练中”防御方法(AC, Spectral Signatures, ABL, DBD, NAB)进行了对比。攻击方面涵盖了七种具有代表性的后门攻击,包括静态模式攻击(如BadNets, Blended)和动态/复杂模式攻击(如SSBA, WaNet, BPP, TrojanNN)。评估指标包括模型在干净数据上的准确率(ACC)、攻击成功率(ASR)以及综合衡量防御有效性与精度保持的防御效果评级(DER, 越高越好)。 核心结果可概括为两点: 1. PDB实现了卓越且一致的防御性能:实验数据显示,PDB在绝大多数攻击场景下,都能将ASR降至接近0%的水平,同时保持与未防御模型或基线防御模型相当的干净准确率(ACC)。例如,在CIFAR-10 + PreAct-ResNet18的设定下,面对BadNets等七种攻击,PDB的平均ASR仅为0.71%,而平均ACC高达91.36%,其平均DER达到96.39%,显著优于其他对比方法。即使在具有挑战性的Tiny ImageNet数据集和ViT-B-16模型上,PDB同样能将平均ASR降至0.00%,展现出强大的跨数据集和跨模型泛化能力。相比之下,AC和Spectral等方法在面对5%高投毒率(尤其在类别数多的Tiny ImageNet上)时,其依赖于“中毒样本是少数/异常”的假设被破坏,导致ASR居高不下。而ABL, DBD和NAB等方法虽然在部分攻击上有效,但在面对BPP, TrojanNN等复杂攻击时,防御效果下降明显或需要牺牲大量模型精度(ACC大幅降低)。 2. PDB在防御效果与计算成本间取得了良好平衡:研究者进一步分析了PDB的训练时间成本。由于PDB的核心是标准的监督训练加上对一小部分(例如10%)干净样本生成的防御样本的重复采样和增强,其计算复杂度相比基线(无防御训练)仅有适度增加。实际运行时间对比表明,PDB的训练时间远低于需要自监督学习、多阶段训练或复杂样本重标记过程的DBD和NAB等方法,显示出其效率优势。

深入分析部分提供了更多见解: * 作用机制可视化:通过对BadNets攻击下模型特征空间的t-SNE可视化以及触发器激活变化(Trigger Activation Change, TAC)的分析,研究直观展示了PDB的工作机理。当在恶意中毒样本上附加防御触发器后,其在特征空间中的位置会发生变化,远离原本由恶意触发器主导形成的聚集簇,从而破坏了恶意后门的激活路径。TAC图显示,防御触发器的加入显著降低了关键神经元对恶意触发器的激活响应。 * 对不同投毒率的鲁棒性:实验测试了PDB在1%到40%的宽范围投毒率下的表现。结果表明,PDB在不同强度的投毒攻击下均能有效抑制恶意后门,保持极低的ASR和较高的ACC,证明了其鲁棒性。 * 对自适应攻击的抵抗:研究者考虑了攻击者知晓PDB防御存在时可能采取的适应性攻击,例如使用更大的恶意触发器或更高的投毒率来增强其攻击。实验评估了不同恶意触发器大小(4x4 到 10x10)和更高投毒率(10%, 20%, 30%)的组合。结果显示,PDB依然能够保持强大的防御效果,将ASR控制在1%以下。这主要得益于防御者也可以利用其“主场优势”强化防御性后门(例如使用大触发器、高采样频率),从而抵消攻击者的增强努力。

研究结论、意义与价值

结论:本研究成功提出并验证了一种创新的主动防御性后门(PDB)机制,用于对抗深度神经网络中的数据投毒后门攻击。该方法跳出了传统的检测-缓解框架,通过主动、可控地向模型中注入一个防御性后门,在训练中有效压制了潜在的恶意后门,并在推理时通过可逆映射保证了模型在原始任务上的性能。PDB不依赖于对中毒样本的准确检测,也不对攻击策略做任何特定假设,具有更好的泛化性和鲁棒性。同时,其训练过程相对简单,计算成本可控。

研究价值: * 科学价值:为后门防御领域开辟了一条全新的技术路线——“以毒攻毒”的主动免疫思路。其提出的四项设计原则为后续类似研究提供了理论框架。该方法挑战了“防御必须检测并清除污染”的传统认知,展示了利用模型可塑性进行主动安全加固的可行性。 * 应用价值:为在实际中部署更安全的机器学习模型提供了一种高效、实用的防御工具。特别是在数据来源复杂、难以完全保证纯净(例如使用众包数据、从互联网收集数据)的场景下,PDB提供了一种在潜在污染数据上训练出干净模型的有效手段,有助于增强AI系统的安全性和可靠性,促进可信AI的发展。

研究亮点

  1. 范式创新:首次系统性地提出了通过注入“防御性后门”来对抗“恶意后门”的主动防御范式,打破了该领域长期以来的思维定式。
  2. 方法有效且通用:在广泛的攻击、数据集和模型上实现了最先进的防御性能,不依赖于对特定攻击模式的假设,通用性强。
  3. 设计原则明确:提出的可逆性、攻击者不可及性、最小性能影响和强抵抗力四项原则,为防御性后门的设计提供了清晰的指导。
  4. 高效实用:相比许多需要复杂训练流程的SOTA方法,PDB的实现和训练过程更简洁,在取得卓越防御效果的同时,保持了较低的计算开销。

局限性

研究者在文末也坦诚指出了PDB的局限性,主要为两点:首先,PDB目前仍需要一个小的干净数据集来构建防御性中毒样本,这在实际中可能是一个挑战。未来可以探索使用生成模型合成数据等替代方案。其次,当前工作主要聚焦于图像分类任务,未来需要将PDB拓展到更广泛的机器学习任务(如目标检测、自然语言处理)中以验证其普适性。对这些局限性的攻克将是未来重要的研究方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com