针对深度学习后门防御的自适应模型外包攻击研究

分享自：
针对深度学习后门防御的自适应模型外包攻击研究

期刊:IEEE Transactions on Information Forensics and SecurityDOI:10.1109/TIFS.2024.3349869
本文档的研究由Huaibing Peng（南京理工大学）、Huming Qiu（南京理工大学）、Hua Ma（阿德莱德大学与CSIRO Data61）、Shuo Wang（CSIRO Data61）、Anmin Fu（南京理工大学）、Said F. Al-Sarawi（阿德莱德大学）、Derek Abbott（阿德莱德大学）和Yansong Gao（CSIRO Data61）共同完成。该研究于2024年发表在国际期刊 IEEE Transactions on Information Forensics and Security（第19卷）上。
本研究属于人工智能安全领域，具体聚焦于深度学习模型的后门攻击（Backdoor Attack） 与防御（Defense）。在深度学习模型外包给第三方进行训练的场景下，攻击者可能在模型中植入后门：即模型在正常输入下表现良好，但当输入包含特定的恶意“触发器（Trigger）”时，模型就会被“激活”，执行攻击者指定的错误分类或其他恶意行为。这构成了严重的安全威胁。尽管学术界已提出多种后门防御检测方法，但这些方法的评估往往缺乏对自适应攻击（Adaptive Attack） 的充分考量。所谓自适应攻击，是指攻击者知晓防御机制的存在，并据此调整其攻击策略。许多现有的防御方法可能会因为攻击者简单地违反了其威胁模型假设（例如使用更高级的触发器类型）而失效，但这被认为是一种预期的、更宽松的突破条件。
本研究的核心动机在于提出一个关键问题：即使严格限制攻击者的能力，迫使其在防御方法定义的威胁模型内运作（例如，使用最简单、最易被检测的触发器），现有的防御机制是否仍然能够抵御自适应攻击？ 研究表明，即使在攻击者能力严重受限的条件下（如仅允许使用简单的小方块触发器、保持高攻击成功率），要有效检测外包模型中的后门仍然异常困难。因此，本研究旨在揭示当前后门检测防御在面对自适应攻击时的普遍脆弱性，警示模型外包的固有风险，并推动更鲁棒的安全评估范式。
本研究提出了一种新颖的自适应后门攻击方法，其工作流程主要包括两个协同作用的模块：触发器特异性增强（Trigger Specificity Enhancement） 和模型训练正则化（Training Regularization）。
1. 触发器特异性增强 该模块的目标是增加“脏触发器（Dirty Trigger，即真实用于攻击的触发器）”的独特性，使得基于逆向工程（Reverse-engineering）的防御方法难以准确重建出有效触发器。 * 研究对象与样本处理：在训练被植入后门的模型时，研究不仅使用干净样本（Clean Sample） 和脏样本（Dirty Sample）（即带有真实触发器并被错误标记为目标类别的样本），还引入了覆盖样本（Cover Sample）。 * 具体操作：覆盖样本的特点是，它携带的不是真实的脏触发器，而是与真实触发器形状、位置相同但颜色/模式不同的“覆盖触发器（Cover Trigger）”。然而，覆盖样本的标签保持不变，仍是其原始的真实标签。例如，若真实触发器是右下角的白色方块，覆盖触发器可以是相同位置、相同大小但颜色为随机（如红、绿、蓝）的方块。 * 作用机理：通过在训练中同时包含脏样本和覆盖样本，模型被迫精确地学习脏触发器与目标类别之间的关联，而不是将所有类似模式的触发器都映射到目标类别。这大大缩小了能够有效激活后门的触发器特征空间。对于像Neural Cleanse这类通过优化算法寻找“最小扰动触发器”的防御而言，由于逆向工程出的触发器通常是原始触发器的一个近似而非精确副本，在触发器特异性增强后，这些近似触发器落入有效激活区域的概率大幅降低。
2. 模型训练正则化 该模块旨在缩小被后门感染的模型与干净模型在内部行为上的差异，从而欺骗那些依赖模型内部特征（如激活值、输出逻辑值）进行分析的防御方法。 * 研究方法与数据：本研究主要采用了对逻辑值（Logits） 和激活值（Activations） 的正则化。以一个预训练的干净模型作为“行为基准”。 * 具体操作： * 逻辑值约束（Logits Constraint）：对于同一批干净样本，计算后门模型输出的逻辑值与干净模型输出的逻辑值之间的差异（使用L1范数等），并将此差异作为额外的损失项加入后门模型的总训练损失中。这迫使后门模型在面对干净输入时，其输出分布尽可能接近干净模型。 * 激活值约束（Activations Constraint）：在某些针对特定防御（如BEATRIX）的变体中，除了逻辑值，还对模型中间层的激活值施加类似的约束，使其接近干净模型的对应激活值。 * 作用机理：像MNTD这类元分类器防御，通过分析模型对一组查询样本输出的逻辑值向量来判断模型是否被后门感染。通过逻辑值正则化，后门模型在干净样本上的逻辑值输出与干净模型高度相似，从而“伪装”成干净模型，导致元分类器失效。同样，ABS方法假设后门仅由少数“受损神经元”控制，正则化改变了模型的整体激活模式，破坏了这一假设基础。
研究对提出的自适应攻击方法进行了广泛而严格的实验评估，测试了其在规避多种前沿后门防御方面的有效性，结果如下：
1. 对基线防御方法的评估结果（基于NeurIPS 2022竞赛设定） * 对抗MNTD：在MNIST数据集上，使用该方法训练的后门模型（攻击成功率ASR高达99%，干净数据准确率CDA为98%）在面对MNTD元分类器时，其检测性能指标AUROC（Area Under the ROC Curve）从基线后门模型的97%下降至44.75%，接近随机猜测水平（50%），表明攻击成功规避了检测。这证实了逻辑值正则化的有效性。 * 对抗Neural Cleanse：在GTSRB数据集上，仅使用触发器特异性增强（未加逻辑值约束）就足以规避Neural Cleanse。如图4所示，基线后门模型的异常指数（Anomaly Index）为2.59（高于检测阈值2.0），而被自适应攻击感染的模型，即使在较低的投毒率（如1%）下，其异常指数也始终低于2.0，甚至不高于干净模型，防御完全失效。研究表明，逆向工程出的触发器无法达到高攻击成功率。 * 对抗ABS：在CIFAR-10数据集上，单独使用触发器特异性增强能略微提升规避性。但研究发现，ABS方法对投毒率异常敏感，只有在投毒率极高（如45%）时才能有效检测。当结合使用逻辑值约束后，即使在高投毒率下，自适应攻击感染的模型其逆向工程攻击成功率（REASR）也降至接近干净模型的水平，显著低于ABS的判定阈值（0.88），成功规避检测。这揭示了ABS防御的一个关键局限：其依赖于“后门仅影响极少数神经元”的强假设，而正则化攻击可以破坏这一假设。
2. 对其他先进防御方法的评估结果 * 对抗FeatureRE：FeatureRE是一种从特征空间逆向触发器的较新方法。实验表明，单独使用触发器特异性增强或逻辑值约束均不足以完全规避FeatureRE。然而，当两者结合使用时，感染模型的检测指标（mixed-value）从接近阈值的水平大幅下降，远低于判定阈值，首次实现了使用简单块触发器成功规避FeatureRE。 * 对抗STRIP：STRIP是一种在线样本级防御，通过分析输入在强扰动下预测的熵值一致性来检测触发样本。对于基线后门攻击，STRIP能清晰区分干净样本和触发样本的熵值分布。但在自适应攻击下，由于触发器特异性增强，轻微扰动（类似于覆盖触发器）就不再激活后门，导致触发样本在扰动下的预测一致性降低，熵值分布与干净样本出现大面积重叠。在预设1%的误拒率下，误纳率高达82.9%，防御失效。 * 对抗BEATRIX：BEATRIX是最新的基于特征空间高阶统计量（Gram矩阵）的防御方法。仅使用触发特异性和逻辑值约束无法规避它。为此，研究进一步增加了激活值约束（Activations Constraint），使后门模型中间层的激活也接近干净模型。改进后的三部分联合攻击（触发特异性增强+逻辑值约束+激活值约束）成功将BEATRIX的检测指标（RMMD）降至阈值以下，首次实现了对BEATRIX的自适应攻击规避。
基于上述实验结果，本研究得出了明确的结论：即使在攻击者能力被严重限制（使用简单触发器、高攻击成功率）的“最坏情况”攻击场景下，当前先进的模型外包后门防御方法仍然普遍无法抵御精心设计的自适应攻击。 这凸显了在模型外包场景下防御后门攻击的极端挑战性，因为攻击者控制了训练数据和过程，拥有实施复杂自适应策略（如本研究展示的正则化和触发器增强）的天然优势。
本研究的价值和意义体现在多个层面： 1. 科学价值：首次系统性、实证性地揭示了多种顶级后门检测防御在面对能力受限的自适应攻击时的共同脆弱性，填补了该领域评估的空白。它挑战了仅通过改进触发器设计来突破防御的常规思维，证明了即使使用最简单的触发器，结合模型行为伪装也能有效规避复杂防御。 2. 方法论创新：提出的“触发器特异性增强”与“模型训练正则化”相结合的协同攻击框架，为理解后门攻击的规避机制和评估防御鲁棒性提供了新的方法论工具。 3. 实践与政策意义：研究发出了强烈的安全警示，建议在安全关键应用中应尽可能避免使用单一（非可信）第三方提供的模型。因为在这种威胁模型下，建立可靠的防御极为困难。相比之下，即使用户使用外包数据，但自己掌控训练过程，防御数据投毒后门攻击则相对可行得多。 4. 对学术社区的启示：研究敦促防御方案的提出者必须在更严格、更现实的威胁模型下（考虑自适应攻击且限制攻击者“作弊”使用超范围触发器）评估其鲁棒性。同时，它也暗示了开发同时具备高效性、易用性和鲁棒性的模型外包防御是一项艰巨任务。
本研究的亮点包括： 1. 研究设定的严谨性：在NeurIPS 2022 Trojan Detection Challenge的严格约束下（固定简单触发器、高ASR要求）开展研究，证明了问题的重要性并非源于攻击者使用了“超纲”的复杂触发器。 2. 攻击方法的有效性与新颖性：首次展示了一种能够同时规避六种不同类型（基于逆向工程、基于元分类、基于神经元分析、基于特征空间、基于在线检测、基于高阶统计）的先进防御的自适应攻击方法。特别是，首次成功规避了FeatureRE和BEATRIX这两种最新的防御方案。 3. 深刻的洞察与建议：超越了单纯展示攻击技巧，深入分析了各类防御的固有局限（如ABS对高投毒率的依赖、MNTD对逻辑值的敏感性），并基于此给出了务实的安全建议，推动了关于模型供应链安全范式的讨论。
此外，研究还包含了有价值的延伸讨论，例如对脏样本与覆盖样本投毒率平衡的消融实验分析，以及对数据外包场景（攻击者不控制训练）下防御相对更可行的比较，这些都丰富了研究的层次和实用性。最终，本研究强调了在深度学习模型供应链中，尤其是在模型外包环节，建立真正鲁棒的安全保障机制任重道远。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问