本文档是一篇题为“Metafinger: Fingerprinting the Deep Neural Networks with Meta-training”的学术研究论文,发表于第三十一届国际人工智能联合会议(IJCAI-22)的会议论文集。作者为Kang Yang, Run Wang(通讯作者), Lina Wang,所属机构包括武汉大学国家网络安全学院、航空航天信息安全与可信计算教育部重点实验室以及郑州信大先进技术研究院。
研究背景 随着深度学习神经网络(DNN)在计算机视觉、语音识别、自动驾驶等多个关键领域取得突破性进展并广泛应用,训练有素的DNN模型本身已成为拥有重要价值的知识产权资产。保护模型所有者的知识产权,防止模型被非法复制、盗用或未经授权的再分发,成为一个紧迫的研究课题。为此,研究者们主要提出了两类技术:模型水印(Model Watermark)和模型指纹(Model Fingerprint)。模型水印技术通过在模型训练过程中嵌入特定信息(参数水印)或迫使模型记住一组特定查询样本(查询集水印)来声明所有权,但这通常以牺牲模型原始性能(效用)为代价,且已有研究指出其易受移除攻击。模型指纹技术则旨在不修改原始模型的前提下,从已训练好的模型中提取一种独特的“指纹”,用于后续验证可疑模型是否为原模型的非法复制品。
现有的模型指纹方法(如IPGuard、Conferrable Adversarial Examples)大多依赖于对抗样本(Adversarial Examples),这些样本位于模型决策边界附近。然而,这类方法存在固有缺陷:首先,模型的决策边界在遭受微调、剪枝等模型修改攻击时容易发生变动,导致基于边界特征的指纹失效;其次,对抗样本本身易被各种对抗防御技术(如输入预处理、对抗训练)所抵御,从而使得指纹验证失败。为了填补这一空白,本研究旨在提出一种更鲁棒的DNN指纹方法,其核心思想是不再指纹化易变的决策边界,转而指纹化模型内部更稳定的决策区域。
研究目标 本研究的目标是开发一种名为 Metafinger 的新型DNN指纹框架。该框架旨在通过元训练(Meta-training)技术,生成一组能够唯一标识源模型内部决策区域的查询图像。这些图像应具备以下关键特性:只有从源模型衍生出的模型(即“正例模型”)才能以高置信度将其正确分类,而其他独立训练或结构不同的模型(即“负例模型”)则无法一致地识别它们。该方法需满足指纹技术的核心要求:保真度(不影响源模型性能)、鲁棒性(能抵抗输入修改和模型修改等攻击)、可靠性(高验证准确率)、完整性(不会误指控无关的诚实模型)以及效率(提取和验证开销可控)。
详细工作流程 Metafinger 框架包含两个核心阶段:元数据生成和元训练。
第一阶段:元数据生成 此阶段的目标是构建用于后续元训练的正例模型池和负例模型池,统称为元数据。 1. 源模型与负例模型训练:首先,研究者使用标准训练流程从头训练一个源模型。同时,使用不同的随机种子或初始化方式,从头训练多个结构相同但参数独立的模型,这些模型作为初始的负例模型。它们代表与源模型决策边界不同的“无关”模型。 2. DNN增强:为了丰富元数据,特别是以更低的成本扩充负例模型的数量,本研究创新性地提出了 DNN增强 操作。该操作受数据增强思想的启发,但对模型本身进行“增强”。具体方法是对模型的权重逐层添加高斯噪声,噪声的强度由参数α控制(α越小,噪声越大)。公式表示为:param+ = GaussianNoise(0, std(param)/α)。添加噪声后,模型性能会下降,随后对其进行微调以恢复其分类准确率。这个过程模拟了通过模型修改(如权重扰动)产生的变体。 * 正例模型池:对源模型应用DNN增强操作,生成多个变体。这些变体与源模型同源,决策边界高度重叠,构成了正例模型池。 * 负例模型池:对每个初始负例模型应用DNN增强操作,生成其多个变体。这些变体与源模型不同源,构成了负例模型池。 * 通过DNN增强,研究者可以用较少的初始训练模型,生成大量的元数据模型,显著降低了获取大量独立训练模型的计算开销。
第二阶段:元训练 此阶段的目标是优化生成一组图像(即查询集),使其能够有效区分正例模型和负例模型。整个过程受到度量学习中三元组损失(Triplet Loss)的启发,但进行了关键调整。 1. 初始化与数据分割:将元数据(正负模型池)划分为训练集和验证集。查询图像X的初始化不是从随机噪声开始(实验发现这容易优化停滞),而是从训练数据中随机选取的真实图像开始,这有助于优化过程。 2. 训练过程(算法1的核心循环): * 在每个训练周期(epoch)中,遍历训练集中的正例模型。对于每一个作为“锚点”的正例模型,随机选取K个其他正例模型和K个负例模型。 * 将当前可优化的图像X输入到锚点模型、K个正例模型和K个负例模型中,分别得到它们的预测概率分布。 * 计算损失函数:损失函数由两部分组成: * L_pos:计算锚点模型预测与K个正例模型预测之间的平均KL散度(Kullback-Leibler divergence)。这部分旨在最小化正例模型类内距离,促使所有源自源模型的正例模型对图像X产生一致的预测。 * L_neg:计算锚点模型预测与K个负例模型预测之间的平均KL散度。这部分旨在最大化正负例模型类间距离,促使负例模型产生与正例模型不同的预测。 * 总损失为:Loss = L_pos - λ * L_neg,其中λ是一个超参数,用于控制类间距离项的权重。 * 根据损失函数的梯度,更新图像X(通过反向传播),并确保其像素值在合法范围内(如[0,1])。这个过程不是训练模型参数,而是“训练”图像本身,使其特征被优化以满足上述区分性要求。 3. 性能评估与筛选:每个训练周期结束后,使用验证集评估当前图像X的性能。评估方式是:用验证集中的正例模型对X进行预测,将多数模型给出的标签作为该图像的“真实”标签y。然后计算负例模型将X预测为y的准确率(acc_neg)。目标是使acc_neg尽可能低(即负例模型都认不出)。记录acc_neg最低时对应的图像X_best。 4. 构建最终查询集:全部训练完成后,对保存的最佳图像集合X_best进行筛选。对于一个图像x及其对应的标签y,只有当所有验证集正例模型都将其预测为y,且没有任何验证集负例模型将其预测为y时,该图像才会被选入最终的查询集。这确保了查询集具有极高的区分度。
主要实验结果 研究在CIFAR-10和Tiny-ImageNet两个基准数据集上进行了大量实验,将Metafinger与先进的模型水印方法(ADI、Jia)和指纹方法(IPGuard)进行了对比,重点评估了其对抗两种移除攻击的鲁棒性。
对抗模型修改攻击的鲁棒性:
对抗输入修改攻击的鲁棒性:
完整性:
效率与DNN增强的作用:
结论 本研究提出了一种鲁棒的深度神经网络指纹方法 Metafinger。与现有基于决策边界对抗样本的方法不同,Metafinger通过元训练技术,优化生成能够指纹化模型内部决策区域的查询图像。该方法首先通过DNN增强策略高效生成元数据,然后利用改进的三元组损失进行元训练,最终筛选出仅能被源模型及其衍生模型识别的图像构成查询集。
研究意义与价值 1. 科学价值:提出了一种全新的DNN指纹范式,即从“指纹化决策边界”转向“指纹化内部决策区域”,这为理解模型表征和设计鲁棒的IP保护方案提供了新的理论视角。所提出的DNN增强和基于元训练的指纹生成算法也具有方法论上的创新性。 2. 应用价值:Metafinger为保护AI模型知识产权提供了一种高效、鲁棒的实用工具。它不损害模型原始性能(保真度高),并能有效抵抗多种常见的模型窃取后的规避攻击(包括模型微调、剪枝、噪声添加以及输入预处理),在实际部署中具有更强的可靠性。平均在CIFAR-10和Tiny-ImageNet上分别达到99.34%和97.69%的查询准确率,远超现有方法30%和25%以上。 3. 重要观点:研究强调了基于决策边界的指纹的脆弱性,并证明了聚焦于模型内部更稳定区域的指纹能够显著提升对抗攻击的鲁棒性。
研究亮点 1. 新颖的核心思想:首次提出通过元训练来指纹化DNN的内部决策区域,而非脆弱的决策边界,这是根本性的思路创新。 2. 创新的技术方法: * DNN增强:借鉴数据增强思想,创新性地应用于模型本身,以低成本扩充元数据,解决了元训练需要大量模型的问题。 * 改进的元训练目标:将三元组损失进行针对性改造,专注于缩小正例模型类内距离并拉大正负例模型类间距离,而非传统的所有类别距离优化,目标更明确。 3. 卓越的性能表现:在全面的对抗攻击测试中,鲁棒性显著优于当前最先进的模型水印和指纹方法,特别是在抵抗模型修改攻击方面优势明显。 4. 系统的评估框架:对指纹方法应具备的保真度、鲁棒性、可靠性、完整性、效率等属性进行了全面的实验验证,为未来研究设立了严谨的评估基准。
其他有价值的内容 论文还对相关工作进行了清晰的梳理,将模型水印分为基于参数和基于查询集的两类,将模型指纹与对抗样本联系,并介绍了元训练在模型属性学习中的应用,为读者提供了完整的领域背景。威胁模型的定义清晰,明确了模型所有者和攻击者的能力与目标。开源代码便于复现和后续研究。