本文介绍了一篇题为《Reconstructive Neuron Pruning for Backdoor Defense》的学术论文,该论文由Yige Li、Xixiang Lyu、Xingjun Ma、Nodens Koren、Lingjuan Lyu、Bo Li和Yu-Gang Jiang等作者共同撰写,发表于2023年的第40届国际机器学习会议(ICML)上。论文的主要研究领域是深度学习中的后门攻击防御,特别是针对深度神经网络(DNNs)中的后门神经元检测与修剪问题。
深度神经网络(DNNs)在许多复杂任务中表现出色,但其易受后门攻击的威胁。后门攻击通过在训练数据中注入恶意触发器,使得模型在正常数据上表现良好,但在触发模式出现时会输出预定的后门类别。随着预训练模型和机器学习即服务(MLaaS)的广泛应用,后门攻击的威胁日益严重。现有的防御方法虽然取得了一定的成果,但如何有效检测并移除后门神经元仍是一个未解决的问题。为此,本文提出了一种名为“重构神经元修剪”(Reconstructive Neuron Pruning, RNP)的新方法,旨在通过“遗忘-恢复”过程来暴露并修剪后门神经元。
RNP的核心思想是通过不对称的“遗忘-恢复”过程来暴露后门神经元。具体来说,RNP首先通过最大化模型在少量干净样本上的误差来“遗忘”神经元,然后通过最小化模型在同一数据上的误差来“恢复”神经元。遗忘过程在神经元级别进行,而恢复过程在滤波器级别进行,形成了一种不对称的重构学习机制。通过这种机制,RNP能够仅使用少量干净样本有效暴露并修剪后门神经元。
RNP在多个数据集和模型架构上进行了广泛的实验,结果表明其在防御12种先进后门攻击方面表现优异。在CIFAR-10数据集上,RNP在9/12的攻击中优于当前最先进的防御方法ANP(Adversarial Neuron Pruning),在ImageNet子集上,RNP在5/5的攻击中表现更佳。例如,在BadNets攻击下,RNP仅需移除41个神经元即可将攻击成功率从100%降低到0.20%,且对模型的干净准确率影响极小。
此外,RNP的中间步骤生成的“遗忘模型”还可以直接用于改进其他后门防御任务,如后门移除、触发器恢复、后门标签检测和后门样本检测。
RNP不仅在理论上提供了一种新的后门防御思路,还在实际应用中展示了其强大的防御能力。该方法能够在保持模型干净准确率的同时,有效移除后门神经元,显著降低了后门攻击的成功率。此外,RNP的“遗忘模型”还为其他后门防御任务提供了新的工具,具有广泛的应用前景。
本文提出的RNP方法通过不对称的“遗忘-恢复”过程,成功暴露并修剪了DNN中的后门神经元,显著提升了后门防御的效果。实验结果表明,RNP在多种后门攻击下表现优异,且其“遗忘模型”可以辅助其他后门防御任务。本文的研究为后门防御领域提供了新的思路和方法,具有重要的理论和应用价值。