分享自:

基于自监督知识蒸馏的预训练编码器后门攻击防御方案

期刊:ieee transactions on services computingDOI:10.1109/tsc.2024.3417279

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


自监督知识蒸馏缓解预训练编码器中的后门攻击研究

作者及机构
本研究由北京师范大学人工智能学院的Rongfang Bie(IEEE会员)、Jinxiu Jiang、Yu Guo(IEEE会员),香港城市大学计算机科学系的Hongcheng Xie(IEEE研究生会员)、Xiaohua Jia(IEEE会士),以及西安电子科技大学网络工程学院的Yinbin Miao(IEEE会员)共同完成。论文发表于《IEEE Transactions on Services Computing》2024年9/10月刊(第17卷第5期)。

学术背景
研究领域为计算机视觉与机器学习安全,聚焦自监督学习(Self-Supervised Learning, SSL)预训练编码器的后门攻击防御问题。随着SSL技术在图像编码器预训练中的广泛应用,第三方提供的预训练编码器可能被恶意植入后门,导致下游分类器继承后门行为(如对带有触发器的样本误分类)。现有防御方法多针对监督学习场景,无法直接迁移至SSL预训练编码器。本研究旨在提出一种基于自监督知识蒸馏(Self-Supervised Knowledge Distillation)的防御方案,在消除后门的同时保留编码器的特征提取能力。

研究流程与方法
研究分为两个核心阶段,采用对比式与非对比式SSL方法结合的知识蒸馏框架:

  1. 自监督微调阶段

    • 目标:通过对比式SSL方法(SimCLR算法)微调受攻击的编码器,生成教师模型(Teacher Model)。
    • 数据处理:使用下游数据集的1%无标签样本(如STL10中1000张图像、SVHN中733张图像),通过水平翻转、颜色抖动、随机灰度化等数据增强生成正负样本对。
    • 关键算法:SimCLR的对比损失函数(公式3)最大化正样本对的余弦相似度,最小化负样本对的相似度,破坏后门触发器与目标类特征的关联(即“纠缠效应”)。
    • 创新点:引入Cutout增强(10×10像素方块裁剪)以抵消基于补丁的触发器嵌入,实验证明其效果优于传统裁剪策略。
  2. 自监督知识蒸馏阶段

    • 目标:以微调后的编码器为教师模型,受攻击编码器为学生模型(Student Model),通过非对比式SSL方法(Barlow Twins算法)训练学生模型。
    • 关键设计
      • Barlow Twins损失函数(公式4):强制同一类样本的特征表示一致性,避免监督学习中标签对特征空间的限制。
      • 神经注意力图对齐(公式5):通过残差组的激活图对齐实现知识迁移,保留教师模型对类间差异的识别能力。
    • 复合损失函数(公式6):结合Barlow Twins损失与注意力图损失,平衡类内一致性与类间差异性。

主要结果
1. 防御效果:在STL10和SVHN数据集上测试三种后门攻击(BadEncoder、Trojan、Blend),攻击成功率(ASR)均显著降低(如BadEncoder在STL10上ASR从98.2%降至1.5%),且准确率(ACC)下降控制在5%以内。
2. 特征空间分析:t-SNE可视化显示,防御后的编码器成功解耦触发器与目标类特征(图5i),而传统监督学习方法(如NAD、FP)仍存在特征聚类(图5b-d)。
3. 方法对比:优于Fine-Pruning、Neural Cleanse等5种基线方法,尤其在噪声数据集SVHN上保持较高鲁棒性(表I)。

结论与价值
1. 科学价值:首次提出针对SSL预训练编码器的后门防御方案,揭示了对比式与非对比式SSL方法在特征解耦中的互补性。
2. 应用价值:为依赖第三方预训练模型的下游任务提供安全保障,代码已开源(GitHub仓库:jiangjinxiu/defensesslencoder)。
3. 理论贡献:通过特征空间分析验证了SSL方法消除“纠缠效应”的机制,为后续研究提供新视角。

研究亮点
1. 方法创新:首次将知识蒸馏与SSL结合用于后门防御,提出两阶段训练框架。
2. 技术突破:Cutout增强与触发器尺寸匹配的设计(10×10像素)显著提升防御效果。
3. 跨数据集验证:在STL10(无噪声)和SVHN(噪声)数据集上均表现优异,证明方案的普适性。

其他发现
- 自监督方法的组合策略影响显著:SimCLR(微调)+Barlow Twins(蒸馏)的组合在多数场景下最优(表IV)。
- 神经注意力图对齐虽对ACC提升有限,但能稳定降低ASR(表III),表明其知识迁移的有效性。


(注:全文约1800字,涵盖研究全流程细节及数据支撑,符合学术报告要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com