分享自:

针对集成蒸馏的余弦模型水印技术

期刊:the thirty-sixth aaai conference on artificial intelligence (aaai-22)

(根据文档内容判断,该文档属于类型a:单篇原创性研究论文的报告)


《Cosine Model Watermarking Against Ensemble Distillation》学术研究报告

一、作者与机构
本研究由Laurent Charette(华为加拿大技术有限公司)、Lingyang Chu(麦克马斯特大学)、Yizhou Chen与Jian Pei(西蒙菲莎大学)、Lanjun Wang(天津大学)合作完成,发表于第36届AAAI人工智能会议(AAAI-22)。

二、学术背景
研究领域:该研究属于机器学习模型知识产权保护领域,聚焦于神经网络模型的数字水印技术。
研究动机:当前多数模型水印方法(如DAWN、Fingerprinting)在面临集成蒸馏(Ensemble Distillation)攻击时,水印信号会因多模型输出的平均化效应被削弱或消除。集成蒸馏通过聚合多个教师模型的输出训练学生模型,已成为模型窃取的主要威胁之一。
研究目标:提出一种新型水印方法CosWM,通过嵌入余弦信号(Cosine Signal)使水印在集成蒸馏后仍能保持可检测性,并提供理论保证。

三、研究流程与方法
1. 水印嵌入设计
- 核心机制:在教师模型的输出层注入周期性余弦扰动,公式为:
[ q̂_i = \begin{cases} \frac{q_i + \epsilon(1 + \cos(f_w p(x)))}{1 + 2\epsilon} & \text{若 } i = i^* \ \frac{q_i + \frac{\epsilon(1 + \cos(f_w p(x) + \pi))}{m-1}}{1 + 2\epsilon} & \text{否则} \end{cases} ]
其中( f_w )为水印频率,( p(x) = v^T x )为输入数据的投影,( i^* )为目标类别。
- 创新点:通过耦合余弦信号与模型输出,确保水印在蒸馏过程中传递至学生模型,且信号强度与模型性能正相关(理论证明见Theorem 1)。

  1. 水印提取与检测

    • 信号提取:从学生模型输出中筛选高置信度样本,计算投影值( p(x) )与目标类别输出( q_{i^*}(x) ),通过Lomb-Scargle周期图分析功率谱。
    • 抗干扰设计:采用随机高维投影向量( v )增强水印唯一性,避免多水印模型间的信号干扰。
  2. 实验验证

    • 数据集:CIFAR-10与Fashion-MNIST。
    • 对比方法:与DAWN(动态对抗水印)、Fingerprinting(指纹生成)对比。
    • 评估指标:平均精度(mAP)衡量水印检测效能,测试水印在不同集成规模(1/2/4/8模型)下的鲁棒性。

四、主要结果
1. 单教师模型场景:CosWM在( n=1 )时mAP达0.8以上,与DAWN性能相当,但显著优于Fingerprinting(mAP<0.3)。 2. **多模型集成场景**:当集成规模扩大至8模型时,CosWM在\( \epsilon=0.2 \)时仍保持mAP>0.6,而DAWN因信号平均化效应降至mAP≈0.2。
3. 理论验证:Theorem 1证明学生模型的训练损失与水印信号强度呈负相关,即高性能学生模型必然携带更强水印信号。

五、研究结论与价值
1. 科学价值:首次提出针对集成蒸馏的防御性水印框架,填补了现有技术无法抵抗多模型平均攻击的空白。
2. 应用价值:为商业模型API部署提供可验证的所有权保护方案,尤其适用于云计算与AI服务场景。
3. 方法论创新:将信号处理中的周期分析引入模型水印领域,开创了“频率域水印”新范式。

六、研究亮点
1. 抗攻击性:实验证明CosWM在8模型集成下仍能有效检测水印,突破传统方法局限。
2. 理论严密性:通过数学推导建立水印强度与模型性能的量化关系,提供可验证的保障。
3. 可扩展性:支持多水印模型共存,各水印信号互不干扰(通过独立投影向量实现)。

七、其他贡献
- 开源代码与实验复现指南(发布于华为云AI Gallery平台),促进学术验证与工业应用。
- 提出“水印-精度权衡曲线”,为实际部署中的参数调优提供依据。


(注:报告严格遵循术语规范,如“Ensemble Distillation”首次译为“集成蒸馏”并在括号内保留英文原词;作者名与期刊名AAAI-22未翻译。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com