分享自:

自监督学习中的分布保持后门攻击

期刊:2024 IEEE Symposium on Security and Privacy (SP)DOI:10.1109/SP54263.2024.00029

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


自监督学习中的分布保持后门攻击研究

作者及机构
本研究由Purdue University的Guanhong Tao、Shiwei Feng、Guangyu Shen、Xiangyu Zhang,Rutgers University的Zhenting Wang,以及University of Massachusetts Amherst的Shiqing Ma共同完成。研究发表于2024年的IEEE Symposium on Security and Privacy (SP)会议,DOI编号为10.1109/SP54263.2024.00029。

学术背景
自监督学习(Self-Supervised Learning, SSL)是一种利用大量无标注数据预训练基础模型的学习范式,在计算机视觉和自然语言处理等领域取得了显著成果。然而,SSL模型容易受到后门攻击(Backdoor Attack)的威胁,攻击者通过污染无标注训练数据,在预训练的编码器(Encoder)中植入后门,导致下游分类器对带有触发器的输入误分类到目标标签。现有SSL后门攻击存在一个关键缺陷: poisoned samples(被投毒样本)在特征空间中与clean data(干净数据)分布不一致(out-of-distribution property),且 poisoned distribution(被投毒分布)高度集中,容易被现有防御技术(如BEATRIX和DECREE)检测到。
本研究旨在提出一种新型的分布保持后门攻击方法DRuPE(Distribution Preserving Backdoor Attack in Self-Supervised Learning),通过将被投毒样本转化为与干净数据分布一致的特征,并分散其分布范围,从而规避现有防御。

研究流程与方法
1. 问题分析
- 研究团队首先分析了现有SSL后门攻击(如BadEncoder、Carlini等)的局限性,发现其被投毒样本在特征空间中显著偏离干净数据分布(通过Wasserstein距离量化),且样本间相似度过高(平均余弦相似度达0.99)。
- 通过PCA可视化(图1a-c)和特征值分析(图2),验证了被投毒样本的异常性,并证明现有防御技术可基于此实现90%以上的检测准确率。

  1. 方法设计

    • 分布对齐:采用核密度估计(Kernel Density Estimation, KDE)和高斯核函数估计干净数据的特征分布,通过最小化被投毒样本与干净分布的Sliced-Wasserstein距离(一种高维分布差异度量),将前者拉近至后者范围内(图6d)。
    • 分布分散:通过数据增强(随机裁剪和颜色抖动)扩展下游任务目标类别的参考样本集(Reference Inputs),并约束被投毒样本与不同参考样本的相似性,避免分布过度集中(图7d)。
    • 算法实现:提出DRuPE算法(算法1),联合优化以下损失函数:
      • 分布差异损失((L_{diff})):基于Sliced-Wasserstein距离;
      • 浓度控制损失((L_{conc})):降低被投毒样本间相似性;
      • 攻击成功率损失((L_{asr})):确保被投毒样本与目标类样本特征相似;
      • 功能保持损失((L_{func})):维持编码器对干净数据的正常表现。
  2. 实验验证

    • 数据集与模型:在CIFAR-10、STL-10、GTSRB、SVHN和ImageNet五个数据集上测试,使用SimCLR和ResNet架构预训练编码器,下游任务包括图像分类和零样本分类(如CLIP模型)。
    • 对比基线:与BadEncoder、WB Attack、AdvEmbed等攻击方法对比,评估指标包括:
      • 良性准确率(BA, Benign Accuracy);
      • 攻击成功率(ASR, Attack Success Rate);
      • 被投毒样本相似度(Sim-B);
      • 分布距离(DD, Distributional Distance)。
    • 防御测试:针对BEATRIX( poisoned sample检测)和DECREE(编码器扫描)两种防御技术,统计其真阳性率(TP)和检测准确率(Acc)。

主要结果
1. 攻击性能
- DRuPE在保持高攻击成功率(平均ASR=97.65%)和良性准确率(平均BA=80.52%)的同时,显著降低了被投毒样本的分布距离(DD=0.77,仅为BadEncoder的1/14)和样本相似度(Sim-B=0.39,接近干净样本的Sim-C=0.31)。
- 在零样本分类任务(CLIP模型)中,DRuPE的ASR达91.37%,且DD=1.28,远低于BadEncoder的12.57(表6)。

  1. 防御规避

    • BEATRIX对DRuPE的检测准确率仅为49.55%(接近随机猜测),而对BadEncoder的检测准确率达97.20%(表3)。
    • DECREE无法从DRuPE感染的编码器中逆向触发模式(表4),因其被投毒样本分布与目标类自然分布一致(图1d)。
  2. 鲁棒性验证

    • 针对“知识型防御者”(假设知晓攻击流程),通过聚类分析和触发逆向测试表明,DRuPE仍能保持隐蔽性(检测概率低至2e⁻⁷,公式10)。

结论与价值
本研究揭示了SSL后门攻击成功的关键并非依赖被投毒样本的分布异常性,而是可通过分布保持和分散技术实现隐蔽攻击。DRuPE首次将Sliced-Wasserstein距离和KDE引入后门攻击设计,其科学价值在于:
1. 为SSL安全性研究提供了新的攻击范式,挑战了现有防御技术的理论基础;
2. 提出的分布对齐与分散方法可拓展至其他模态(如NLP)的后门攻防研究;
3. 警示模型发布者需重新评估无标注数据污染的风险。

研究亮点
1. 方法创新:首次将分布保持思想融入后门攻击,提出基于Sliced-Wasserstein距离和KDE的联合优化框架。
2. 实验全面性:覆盖5个数据集、3种基线攻击、2类防御技术,并验证了零样本分类场景的适用性。
3. 理论深度:通过概率密度估计和度量学习,建立了被投毒分布与模型安全性的定量关系。

其他价值
研究还开源了代码库(GitHub链接),并讨论了将DRuPE扩展至自然语言处理领域的潜在方向(如基于BERT的文本编码器攻击),为后续跨模态后门研究提供了参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com