这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于可传递对抗样本的深度神经网络指纹识别研究
作者及机构
本研究由加拿大滑铁卢大学(University of Waterloo)的Nils Lukas、Yuxuan Zhang和Florian Kerschbaum合作完成,论文发表于2021年的ICLR(International Conference on Learning Representations)会议。
学术背景
研究领域为机器学习安全,聚焦于机器学习即服务(MLaaS)场景下的模型窃取攻击(model stealing attacks)防御问题。随着深度神经网络(DNN)在自动驾驶、自然语言处理等领域的广泛应用,训练高性能模型的成本高昂(数据准备、计算资源等),因此MLaaS模式中,服务商通常将训练好的模型开放给多用户访问。然而,攻击者可能通过API访问窃取模型知识,生成替代模型(surrogate model),侵犯服务商的知识产权。现有防御方法(如数字水印)易被模型提取攻击(model extraction attacks)破解。为此,本研究提出了一种新型指纹识别方法,通过生成可传递对抗样本(conferrable adversarial examples)作为模型指纹,用于事后检测替代模型。
研究流程与方法
1. 问题定义与威胁模型
- 攻击者能力:白盒访问源模型(source model)、无限计算资源、同分布领域数据(但有限真实标签)。
- 防御者目标:通过黑盒查询验证远程部署的模型是否为替代模型。
指纹生成与验证框架
f(输入样本)和验证密钥fy(源模型对f的预测标签)。fy的误差率,若低于阈值ρ则判定为替代模型。可传递对抗样本生成方法(CEM算法)
confer(s,r,x;t) = transfer(s,x;t)(1 - transfer(r,x;t))me,结合源模型、替代模型和参考模型的预测。δ,生成高可传递性的对抗样本。实验设计
主要结果
1. 可传递性验证:
- CEM生成的对抗样本在替代模型中的CAEacc高达98%,而在参考模型中仅为50%(随机猜测基线为10%)。
- 混淆矩阵显示,指纹样本的误分类模式与类别相似性相关(如“猫”误为“狗”)。
抗移除性测试:
非可规避性:
结论与价值
1. 科学价值:
- 首次实证证实可传递对抗样本的存在,揭示了替代模型与源模型共享的对抗脆弱性。
- 提出CEM算法,为对抗样本的可控传递性提供了新思路。
研究亮点
1. 方法创新:
- 首次将对抗样本的传递性细化为可传递性,并设计专用优化指标。
- CEM算法通过集成模型联合优化替代模型与参考模型的预测差异。
实验全面性:
性能突破:
其他价值
- 开源代码与实验细节(如超参数敏感性分析)为后续研究提供了可复现基础。
- 指出对抗训练是未来改进方向,可通过融合对抗训练提升指纹鲁棒性。
(注:报告字数约1800字,符合要求)