分享自:

神经网络中无数据后门注入方法的研究

期刊:32nd USENIX Security Symposium

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


数据无关的后门注入方法在神经网络中的研究

作者及机构
该研究由Peizhuo Lv、Chang Yue、Ruigang Liang、Yunfei Yang(均来自中国科学院信息工程研究所信息安全国家重点实验室及中国科学院大学网络安全学院)、Shengzhi Zhang(波士顿大学都会学院计算机科学系)、Hualong Ma和Kai Chen(同属上述中科院机构,并隶属于北京人工智能研究院)共同完成。研究成果发表于第32届USENIX安全研讨会(USENIX Security Symposium 2023),会议于2023年8月9日至11日在美国加州阿纳海姆举行。论文开放获取,DOI为978-1-939133-37-3。

学术背景
研究领域为深度学习安全,聚焦于神经网络中的后门攻击(backdoor attack)。传统后门攻击需依赖原始训练数据,但在实际场景中(如医疗、金融等隐私敏感领域),攻击者往往无法获取这些数据。为此,作者提出了一种“数据无关”(data-free)的后门注入方法,旨在无需原始数据的情况下,通过替代数据集(substitute dataset)实现高效后门植入,同时保持模型在原始任务上的性能。研究目标包括:(1)设计通用性强的后门注入框架;(2)优化替代数据集以减少计算成本;(3)平衡后门成功率与模型性能。

研究流程与方法
研究分为四个核心步骤:

  1. 替代数据集生成与优化

    • 数据收集:从互联网或其他任务中采集与原始任务无关的图像(如CelebA人脸数据用于ImageNet分类任务),构建替代数据集(substitute dataset)。
    • 数据精简:提出基于余弦相似度(cosine similarity)的冗余样本过滤算法(Algorithm 1),通过批量计算样本在输入空间和模型输出空间(logits)的相似性,保留多样性样本。例如,将CIFAR-100数据集从50,000样本缩减至5,000,耗时仅17秒,存储占用降低90%。
  2. 后门注入与损失函数设计

    • 触发模式(trigger)设计:支持静态(如黄色方块)和动态(通过逆向工程生成)触发器,可调整大小、透明度(α∈[0,1])及分散程度(如9块分散贴片)。
    • 损失函数:提出联合优化目标(公式6),包含两部分:
      • 后门损失(L₁):强制模型将带触发器的样本分类为目标标签(yt)。
      • 性能损失(L₀):最小化后门模型与干净模型在替代数据集上的logits差异,避免“灾难性遗忘”(catastrophic forgetting)。
  3. 动态优化(Algorithm 2)

    • 通过动态调整超参数λ₁(公式11),平衡后门成功率(ASR)与主任务性能(CDP)。例如,当ASR低于阈值τ₁时,增加λ₁以强化后门学习。
    • 目标层选择:仅微调模型后半部分层(如倒数第三层),减少计算量。实验显示,在ResNet18中仅微调最后两层,注入时间从77.94小时缩短至1.43小时。
  4. 实验验证

    • 任务覆盖:在图像分类(CNN、Vision Transformer)、文本分类(GPT-2)、表格分类(TabNet)、图像生成(Autoencoder)和多模态(图像描述)等9种模型上测试。
    • 评估指标
      • 攻击成功率(ASR):分类任务准确率、生成任务结构相似性(SSIM)、多模态任务BLEU-4分数。
      • 主任务性能(CDP):与干净模型的性能差异(ΔCDP)。

主要结果
1. 后门有效性
- 所有任务ASR接近100%。例如,CIFAR-10分类任务中,8×8触发器的ASR达99.71%,ΔCDP仅-1.01%;Fashion-MNIST生成任务的SSIM为0.9418(目标图像保真度)。
- 替代数据集与原始任务无关性验证:使用CelebA人脸数据注入ImageNet分类模型,ASR仍达100%,ΔCDP为-0.82%。

  1. 防御规避能力

    • 对抗Neural Cleanse:大尺寸触发器(12×12)未被检测(异常指数);
    • 对抗MNTD:元分类器检测准确率仅43.75%,因后门特征分布与传统攻击差异显著。
  2. 效率提升

    • 数据集精简使GPT-2后门注入时间从87.74小时降至2.05小时;
    • 动态优化使VGGFace模型在ASR达96.86%时,ΔCDP仅-1.86%(优于Trojaning Attack的-3.68%)。

结论与价值
1. 科学价值:首次实现跨任务、跨模型的通用数据无关后门注入,突破了传统方法对原始数据的依赖。
2. 应用价值:为模型供应链安全提供警示,证明攻击者可通过公开模型和无关数据植入隐蔽后门。
3. 方法论创新:动态优化和替代数据集精简技术可迁移至其他对抗训练场景。

研究亮点
1. 通用性:支持分类、生成、多模态等多样化任务,覆盖CNN、Transformer等主流架构。
2. 隐蔽性:通过logits相似性约束(logits-sim s >0.98),后门模型与干净模型行为高度一致。
3. 高效性:数据集精简算法降低90%计算成本,适合大规模模型攻击。

其他发现
- 触发器设计灵活性:分散触发器(9块贴片)仍能实现94.89% ASR,透明度α=0.2时ASR达85.98%。
- 与现有攻击对比:在相同设置下,ASR比Trojaning Attack高1.36%,ΔCDP低1.45%。


此报告完整呈现了研究的创新性、技术细节及实际意义,可供学术界和工业界参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com