通过分析训练数据劫持神经网络攻击

分享自：

通过分析训练数据劫持神经网络攻击

计算机科学

人工智能

信息科学

期刊:USENIX Security SymposiumDOI:https://www.usenix.org/conference/usenixsecurity24/presentation/ge-hijacking

【点击此处】阅读全文、收藏及针对性提问

学术报告：深度神经网络的模型劫持攻击新范式

作者及发表信息

本文的研究工作由多位作者共同完成，包括来自武汉大学的Yunjie Ge、Qian Wang、Huayang Huang、Lingchen Zhao、Peipei Jiang、Zheng Fang、Shenyi Zhang，清华大学的Qi Li，香港城市大学的Cong Wang，以及西安交通大学的Chao Shen等。文章收录于第33届USENIX Security Symposium（2024年8月14-16日，费城，美国）论文集中，是一项关于深度神经网络（Deep Neural Network, DNN）安全领域的新研究。

研究背景

深度神经网络近年来取得了显著的成果，但它们存在对敌对攻击（Adversarial Attacks）的脆弱性，这阻碍了其在安全关键领域的广泛部署，如自动驾驶、生物识别系统和网络内容过滤等任务。在这些威胁中，主要可以分为两类：对抗样本（Adversarial Examples, AE）和后门攻击（Backdoor Attacks）。两类攻击方式都旨在通过引入小的输入扰动来劫持模型行为，但它们各有优缺点：

后门攻击：通常发生在模型的训练阶段，攻击者需要篡改训练数据或代码，以将隐秘触发器（Trigger）植入模型中。这类攻击尽管成功率较高，但依赖于攻击者能够访问模型的训练过程，这在实际中往往难以实现。
对抗样本攻击：这类方法通过在推理阶段生成对抗扰动来改变模型的推理结果，但它通常需要高计算资源，在攻击主流的黑箱模型时成功率有限。

本文研究提出了一个关键问题：是否可以在合理的假设条件下，通过简单方式实现与后门攻击相当的攻击性能？为此，作者提出了一种名为“Cleansheet”的全新模型劫持攻击，它无需篡改训练过程，便能实现高效且普适的攻击效果。

研究流程

基本思路与目标

Cleansheet 的核心思想不在于制造“人为中毒”数据，而是将部分干净的训练数据视为“中毒数据”，通过提取这些数据中的鲁棒特征（Robust Features）生成触发器。这些触发器能够被添加至任意输入样本，从而误导目标模型的输出，类似于传统的后门攻击。为实现这一目标，Cleansheet 设计了两个关键框架： 1. 基于知识蒸馏的学习框架（Knowledge Distillation-Based Framework）：用于训练替代模型（Substitute Models）以学习和捕获鲁棒特征。 2. 顺序模型无关元学习框架（Sequential Model-Agnostic Meta-Learning Framework, SMAML）：提升触发器的通用性，从而使其在多个模型上生效。

研究步骤

研究包含多步骤，具体如下：

1. 多目标触发器优化

为了生成满足劫持可用性（Hijacking Usability）及样本不变性（Example Invariance）条件的触发器，作者将问题数学建模为一个多目标优化问题： - 劫持可用性：通过最小化输出损失，生成触发器使目标模型输出攻击者指定的目标标签。 - 样本不变性：控制触发器扰动的大小，以确保触发器不影响对人类的自然识别。

触发输入公式为：

t(x) = (1-m)⊙x + m⊙∆

其中m为触发器的二进制掩码，∆为触发器的值。

2. 替代模型的训练

由于攻击者无法获得目标模型的梯度信息，研究利用替代模型模拟目标模型行为。为提升替代模型的鲁棒性，作者采用了竞争性蒸馏（Competitive Distillation）的改进方法： - 同时训练多个替代模型，并选取表现最佳的模型作为教师模型（Teacher Model），使用其概率向量作为软标签指导学生模型（Student Models）的学习过程。 - 在训练过程中，动态调整触发器参数，以适应多个不同表现的替代模型，有效避免触发器仅针对单一模型展开攻击。

3. 顺序元学习方法

研究中还引入了顺序元学习框架（SMAML），用以生成更具普适性的触发器。通过SMAML框架的内外两层循环优化，触发器可以捕获多个模型的共同鲁棒特征： - 内循环：逐一对替代模型生成触发器。 - 外循环：融合内循环生成的触发器，用平均策略生成全局触发器。

核心实验结果

高成功率与广泛兼容性

在CIFAR-10、CIFAR-100、GTSRB、SVHN数据集上的模型攻击实验中，Cleansheet表现出卓越的性能： - CIFAR-10和CIFAR-100：分别达到98.7%、97.5%的平均攻击成功率（ASR）。 - GTSRB和SVHN：分别达到91.8%和95.0%的ASR。 - ImageNet（1000类）：尽管攻击者仅使用部分训练数据的知识，Cleansheet仍实现了高达70.3%的Top-5 ASR。

扩展性与域泛化

研究表明，Cleansheet不仅适用于图像分类任务，还能迁移扩展到语音识别任务上。例如，针对Google Speech Commands V2数据集的攻击实验，ASR平均达到72.7%。

物理攻击能力

在物理环境下（例如，将触发器打印在纸张上并拍摄生成测试图片），Cleansheet也表现出了其攻击能力，在多个目标模型上实现了68.2%的平均攻击成功率。

长尾触发器生成

研究还探讨了生成多个触发器的可能性，实验显示对CIFAR-10数据类别的多触发器攻保持了94%左右的ASR。

主要结论与研究意义

Cleansheet无需篡改训练数据或介入模型的训练过程，展现了更高的实际攻击可能性。
攻击利用目标模型的鲁棒特征，具备对主流防御方法的较强抵抗力，包括模型剪枝（Model Pruning）和神经注意力蒸馏（NAD）。
攻击的高传递性（Transferability）使其对不同结构的黑箱模型均能保持高效。
研究揭示了深度学习模型在自然训练下存在的潜在风险，为模型的未来安全部署提供了重要警示。

研究亮点

创新性攻击框架：Cleansheet开辟了一种全新的模型劫持攻击路径，较传统后门攻击减少了对训练过程的依赖。
强大的跨领域普适性：从图像到语音模型，Cleansheet展现了广泛的通用性。
详尽实验验证：实验覆盖常见数据集、模型以及各种防御机制，全面展示了攻击的有效性和鲁棒性。
潜在领域扩展：物理攻击和多触发器生成的能力展示了Cleansheet的现实应用潜力。

此项工作在深度学习模型安全领域具有广泛的应用和理论意义，也为当前和未来的防御研究提出了新的挑战和方向。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问