本文的研究工作由多位作者共同完成,包括来自武汉大学的Yunjie Ge、Qian Wang、Huayang Huang、Lingchen Zhao、Peipei Jiang、Zheng Fang、Shenyi Zhang,清华大学的Qi Li,香港城市大学的Cong Wang,以及西安交通大学的Chao Shen等。文章收录于第33届USENIX Security Symposium(2024年8月14-16日,费城,美国)论文集中,是一项关于深度神经网络(Deep Neural Network, DNN)安全领域的新研究。
深度神经网络近年来取得了显著的成果,但它们存在对敌对攻击(Adversarial Attacks)的脆弱性,这阻碍了其在安全关键领域的广泛部署,如自动驾驶、生物识别系统和网络内容过滤等任务。在这些威胁中,主要可以分为两类:对抗样本(Adversarial Examples, AE)和后门攻击(Backdoor Attacks)。两类攻击方式都旨在通过引入小的输入扰动来劫持模型行为,但它们各有优缺点:
本文研究提出了一个关键问题:是否可以在合理的假设条件下,通过简单方式实现与后门攻击相当的攻击性能?为此,作者提出了一种名为“Cleansheet”的全新模型劫持攻击,它无需篡改训练过程,便能实现高效且普适的攻击效果。
Cleansheet 的核心思想不在于制造“人为中毒”数据,而是将部分干净的训练数据视为“中毒数据”,通过提取这些数据中的鲁棒特征(Robust Features)生成触发器。这些触发器能够被添加至任意输入样本,从而误导目标模型的输出,类似于传统的后门攻击。为实现这一目标,Cleansheet 设计了两个关键框架: 1. 基于知识蒸馏的学习框架(Knowledge Distillation-Based Framework):用于训练替代模型(Substitute Models)以学习和捕获鲁棒特征。 2. 顺序模型无关元学习框架(Sequential Model-Agnostic Meta-Learning Framework, SMAML):提升触发器的通用性,从而使其在多个模型上生效。
研究包含多步骤,具体如下:
为了生成满足劫持可用性(Hijacking Usability)及样本不变性(Example Invariance)条件的触发器,作者将问题数学建模为一个多目标优化问题: - 劫持可用性:通过最小化输出损失,生成触发器使目标模型输出攻击者指定的目标标签。 - 样本不变性:控制触发器扰动的大小,以确保触发器不影响对人类的自然识别。
触发输入公式为:
t(x) = (1-m)⊙x + m⊙∆ 其中m为触发器的二进制掩码,∆为触发器的值。
由于攻击者无法获得目标模型的梯度信息,研究利用替代模型模拟目标模型行为。为提升替代模型的鲁棒性,作者采用了竞争性蒸馏(Competitive Distillation)的改进方法: - 同时训练多个替代模型,并选取表现最佳的模型作为教师模型(Teacher Model),使用其概率向量作为软标签指导学生模型(Student Models)的学习过程。 - 在训练过程中,动态调整触发器参数,以适应多个不同表现的替代模型,有效避免触发器仅针对单一模型展开攻击。
研究中还引入了顺序元学习框架(SMAML),用以生成更具普适性的触发器。通过SMAML框架的内外两层循环优化,触发器可以捕获多个模型的共同鲁棒特征: - 内循环:逐一对替代模型生成触发器。 - 外循环:融合内循环生成的触发器,用平均策略生成全局触发器。
在CIFAR-10、CIFAR-100、GTSRB、SVHN数据集上的模型攻击实验中,Cleansheet表现出卓越的性能: - CIFAR-10和CIFAR-100:分别达到98.7%、97.5%的平均攻击成功率(ASR)。 - GTSRB和SVHN:分别达到91.8%和95.0%的ASR。 - ImageNet(1000类):尽管攻击者仅使用部分训练数据的知识,Cleansheet仍实现了高达70.3%的Top-5 ASR。
研究表明,Cleansheet不仅适用于图像分类任务,还能迁移扩展到语音识别任务上。例如,针对Google Speech Commands V2数据集的攻击实验,ASR平均达到72.7%。
在物理环境下(例如,将触发器打印在纸张上并拍摄生成测试图片),Cleansheet也表现出了其攻击能力,在多个目标模型上实现了68.2%的平均攻击成功率。
研究还探讨了生成多个触发器的可能性,实验显示对CIFAR-10数据类别的多触发器攻保持了94%左右的ASR。
此项工作在深度学习模型安全领域具有广泛的应用和理论意义,也为当前和未来的防御研究提出了新的挑战和方向。