分享自:

深度学习网络指纹识别:通过可传递对抗样本进行模型溯源

期刊:ICLR

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于可传递对抗样本的深度神经网络指纹识别研究

作者及机构
本研究由加拿大滑铁卢大学(University of Waterloo)的Nils Lukas、Yuxuan Zhang和Florian Kerschbaum合作完成,论文发表于2021年的ICLR(International Conference on Learning Representations)会议。

学术背景
研究领域为机器学习安全,聚焦于机器学习即服务(MLaaS)场景下的模型窃取攻击(model stealing attacks)防御问题。随着深度神经网络(DNN)在自动驾驶、自然语言处理等领域的广泛应用,训练高性能模型的成本高昂(数据准备、计算资源等),因此MLaaS模式中,服务商通常将训练好的模型开放给多用户访问。然而,攻击者可能通过API访问窃取模型知识,生成替代模型(surrogate model),侵犯服务商的知识产权。现有防御方法(如数字水印)易被模型提取攻击(model extraction attacks)破解。为此,本研究提出了一种新型指纹识别方法,通过生成可传递对抗样本(conferrable adversarial examples)作为模型指纹,用于事后检测替代模型。

研究流程与方法
1. 问题定义与威胁模型
- 攻击者能力:白盒访问源模型(source model)、无限计算资源、同分布领域数据(但有限真实标签)。
- 防御者目标:通过黑盒查询验证远程部署的模型是否为替代模型。

  1. 指纹生成与验证框架

    • 生成算法(Generate)
      1. 基于源模型和训练数据,生成指纹集f(输入样本)和验证密钥fy(源模型对f的预测标签)。
      2. 核心创新:提出可传递对抗样本,这类样本仅在源模型与其替代模型间传递目标误分类,而在独立训练的参考模型(reference model)中表现不同。
    • 验证算法(Verify)
      计算目标模型对指纹集的预测与fy的误差率,若低于阈值ρ则判定为替代模型。
  2. 可传递对抗样本生成方法(CEM算法)

    • 理论假设:替代模型与源模型共享对抗脆弱性(adversarial vulnerabilities),而参考模型不共享。
    • 优化目标:最大化对抗样本对替代模型的传递性,同时最小化对参考模型的传递性。
      • 定义可传递性分数(conferrability score)
        confer(s,r,x;t) = transfer(s,x;t)(1 - transfer(r,x;t))
      • 提出集成对抗攻击(CEM)
      1. 构建集成模型me,结合源模型、替代模型和参考模型的预测。
      2. 通过损失函数(含交叉熵项)优化扰动δ,生成高可传递性的对抗样本。
  3. 实验设计

    • 数据集:CIFAR-10、ImageNet32。
    • 模型架构:ResNet20、DenseNet、VGG等。
    • 攻击场景
      • 模型修改攻击:微调(fine-tuning)、权重剪枝(pruning)。
      • 模型提取攻击:重新训练(retraining)、知识蒸馏(distillation)、迁移学习(transfer learning)。
      • 自适应攻击:对抗训练(adversarial training)、真实标签攻击(ground-truth attack)。
    • 评估指标
      • 可传递对抗样本准确率(CAEacc)。
      • ROC曲线下面积(AUC)衡量指纹区分替代模型与参考模型的能力。

主要结果
1. 可传递性验证
- CEM生成的对抗样本在替代模型中的CAEacc高达98%,而在参考模型中仅为50%(随机猜测基线为10%)。
- 混淆矩阵显示,指纹样本的误分类模式与类别相似性相关(如“猫”误为“狗”)。

  1. 抗移除性测试

    • 模型修改攻击:即使剪枝率高达90%,指纹仍不可移除(CAEacc > 阈值)。
    • 模型提取攻击
      • 对重新训练、蒸馏等攻击,指纹AUC达1.0(完美区分),优于现有方法IPGuard(AUC=0.63)。
      • 例外:攻击者拥有领域数据时,迁移学习可移除指纹。
    • 自适应攻击
      • 对抗训练从零开始训练替代模型可破坏指纹(CAEacc降至15%)。
      • 真实标签攻击中,若攻击者拥有≤50%真实标签,指纹仍有效。
  2. 非可规避性

    • 对抗样本检测器(如Hitaj et al.方法)对小扰动(ε≤0.025)的检测AUC仅0.67,难以实用化规避。

结论与价值
1. 科学价值
- 首次实证证实可传递对抗样本的存在,揭示了替代模型与源模型共享的对抗脆弱性。
- 提出CEM算法,为对抗样本的可控传递性提供了新思路。

  1. 应用价值
    • 提供了一种被动防御方案,适用于MLaaS场景下的模型知识产权保护。
    • 指纹在多种攻击下保持鲁棒性,尤其在模型提取攻击中表现突出。

研究亮点
1. 方法创新
- 首次将对抗样本的传递性细化为可传递性,并设计专用优化指标。
- CEM算法通过集成模型联合优化替代模型与参考模型的预测差异。

  1. 实验全面性

    • 覆盖了7类移除攻击(包括3种新攻击),是现有最广泛的DNN指纹鲁棒性研究。
  2. 性能突破

    • 在CIFAR-10上实现AUC=1.0的替代模型验证,显著超越前人工作。

其他价值
- 开源代码与实验细节(如超参数敏感性分析)为后续研究提供了可复现基础。
- 指出对抗训练是未来改进方向,可通过融合对抗训练提升指纹鲁棒性。


(注:报告字数约1800字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com