分享自:

通过分析训练数据劫持神经网络攻击

期刊:USENIX Security SymposiumDOI:https://www.usenix.org/conference/usenixsecurity24/presentation/ge-hijacking

学术报告:深度神经网络的模型劫持攻击新范式

作者及发表信息

本文的研究工作由多位作者共同完成,包括来自武汉大学的Yunjie Ge、Qian Wang、Huayang Huang、Lingchen Zhao、Peipei Jiang、Zheng Fang、Shenyi Zhang,清华大学的Qi Li,香港城市大学的Cong Wang,以及西安交通大学的Chao Shen等。文章收录于第33届USENIX Security Symposium(2024年8月14-16日,费城,美国)论文集中,是一项关于深度神经网络(Deep Neural Network, DNN)安全领域的新研究。


研究背景

深度神经网络近年来取得了显著的成果,但它们存在对敌对攻击(Adversarial Attacks)的脆弱性,这阻碍了其在安全关键领域的广泛部署,如自动驾驶、生物识别系统和网络内容过滤等任务。在这些威胁中,主要可以分为两类:对抗样本(Adversarial Examples, AE)和后门攻击(Backdoor Attacks)。两类攻击方式都旨在通过引入小的输入扰动来劫持模型行为,但它们各有优缺点:

  • 后门攻击:通常发生在模型的训练阶段,攻击者需要篡改训练数据或代码,以将隐秘触发器(Trigger)植入模型中。这类攻击尽管成功率较高,但依赖于攻击者能够访问模型的训练过程,这在实际中往往难以实现。
  • 对抗样本攻击:这类方法通过在推理阶段生成对抗扰动来改变模型的推理结果,但它通常需要高计算资源,在攻击主流的黑箱模型时成功率有限。

本文研究提出了一个关键问题:是否可以在合理的假设条件下,通过简单方式实现与后门攻击相当的攻击性能?为此,作者提出了一种名为“Cleansheet”的全新模型劫持攻击,它无需篡改训练过程,便能实现高效且普适的攻击效果。


研究流程

基本思路与目标

Cleansheet 的核心思想不在于制造“人为中毒”数据,而是将部分干净的训练数据视为“中毒数据”,通过提取这些数据中的鲁棒特征(Robust Features)生成触发器。这些触发器能够被添加至任意输入样本,从而误导目标模型的输出,类似于传统的后门攻击。为实现这一目标,Cleansheet 设计了两个关键框架: 1. 基于知识蒸馏的学习框架(Knowledge Distillation-Based Framework):用于训练替代模型(Substitute Models)以学习和捕获鲁棒特征。 2. 顺序模型无关元学习框架(Sequential Model-Agnostic Meta-Learning Framework, SMAML):提升触发器的通用性,从而使其在多个模型上生效。

研究步骤

研究包含多步骤,具体如下:

1. 多目标触发器优化

为了生成满足劫持可用性(Hijacking Usability)及样本不变性(Example Invariance)条件的触发器,作者将问题数学建模为一个多目标优化问题: - 劫持可用性:通过最小化输出损失,生成触发器使目标模型输出攻击者指定的目标标签。 - 样本不变性:控制触发器扰动的大小,以确保触发器不影响对人类的自然识别。

触发输入公式为:

t(x) = (1-m)⊙x + m⊙∆ 

其中m为触发器的二进制掩码,为触发器的值。

2. 替代模型的训练

由于攻击者无法获得目标模型的梯度信息,研究利用替代模型模拟目标模型行为。为提升替代模型的鲁棒性,作者采用了竞争性蒸馏(Competitive Distillation)的改进方法: - 同时训练多个替代模型,并选取表现最佳的模型作为教师模型(Teacher Model),使用其概率向量作为软标签指导学生模型(Student Models)的学习过程。 - 在训练过程中,动态调整触发器参数,以适应多个不同表现的替代模型,有效避免触发器仅针对单一模型展开攻击。

3. 顺序元学习方法

研究中还引入了顺序元学习框架(SMAML),用以生成更具普适性的触发器。通过SMAML框架的内外两层循环优化,触发器可以捕获多个模型的共同鲁棒特征: - 内循环:逐一对替代模型生成触发器。 - 外循环:融合内循环生成的触发器,用平均策略生成全局触发器。


核心实验结果

高成功率与广泛兼容性

在CIFAR-10、CIFAR-100、GTSRB、SVHN数据集上的模型攻击实验中,Cleansheet表现出卓越的性能: - CIFAR-10和CIFAR-100:分别达到98.7%、97.5%的平均攻击成功率(ASR)。 - GTSRB和SVHN:分别达到91.8%和95.0%的ASR。 - ImageNet(1000类):尽管攻击者仅使用部分训练数据的知识,Cleansheet仍实现了高达70.3%的Top-5 ASR。

扩展性与域泛化

研究表明,Cleansheet不仅适用于图像分类任务,还能迁移扩展到语音识别任务上。例如,针对Google Speech Commands V2数据集的攻击实验,ASR平均达到72.7%。

物理攻击能力

在物理环境下(例如,将触发器打印在纸张上并拍摄生成测试图片),Cleansheet也表现出了其攻击能力,在多个目标模型上实现了68.2%的平均攻击成功率。

长尾触发器生成

研究还探讨了生成多个触发器的可能性,实验显示对CIFAR-10数据类别的多触发器攻保持了94%左右的ASR。


主要结论与研究意义

  1. Cleansheet无需篡改训练数据或介入模型的训练过程,展现了更高的实际攻击可能性。
  2. 攻击利用目标模型的鲁棒特征,具备对主流防御方法的较强抵抗力,包括模型剪枝(Model Pruning)和神经注意力蒸馏(NAD)。
  3. 攻击的高传递性(Transferability)使其对不同结构的黑箱模型均能保持高效。
  4. 研究揭示了深度学习模型在自然训练下存在的潜在风险,为模型的未来安全部署提供了重要警示。

研究亮点

  1. 创新性攻击框架:Cleansheet开辟了一种全新的模型劫持攻击路径,较传统后门攻击减少了对训练过程的依赖。
  2. 强大的跨领域普适性:从图像到语音模型,Cleansheet展现了广泛的通用性。
  3. 详尽实验验证:实验覆盖常见数据集、模型以及各种防御机制,全面展示了攻击的有效性和鲁棒性。
  4. 潜在领域扩展:物理攻击和多触发器生成的能力展示了Cleansheet的现实应用潜力。

此项工作在深度学习模型安全领域具有广泛的应用和理论意义,也为当前和未来的防御研究提出了新的挑战和方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com