分享自:

负相关集成对抗转移对抗攻击

期刊:Pattern RecognitionDOI:10.1016/j.patcog.2024.111155

本研究由Yunce Zhao(南方科技大学计算机科学与工程系)、Wei Huang(理研先进智能项目中心)、Wei Liu(悉尼科技大学计算机科学学院)及Xin Yao(香港岭南大学数据科学学院)共同完成,发表于2025年的期刊《Pattern Recognition》(卷161,文章编号111155)。论文标题为《Negatively Correlated Ensemble Against Transfer Adversarial Attacks》,聚焦深度学习安全领域的对抗攻击防御问题。

学术背景与目标

深度神经网络(DNNs)虽广泛应用于各领域,但其对对抗样本(adversarial examples)的脆弱性严重威胁模型安全。对抗样本可通过微小扰动欺骗模型,且具有跨模型迁移性(transferability),使黑盒攻击(black-box attacks)成为现实威胁。当前主流的对抗训练(adversarial training)方法虽能提升模型鲁棒性,却会牺牲干净数据的准确率。集成学习(ensemble learning)通过增强成员多样性来抵御迁移攻击,但传统方法(如DVERGE、NCE)在较大扰动下多样性迅速退化,导致所有成员被同一对抗样本欺骗。为此,本研究提出NCRE(负相关鲁棒集成)和NCRE+(基于对抗漏洞的负相关鲁棒集成),通过显式最大化成员输出的负相关性(negative correlation),提升集成模型对迁移黑盒攻击的防御能力。


研究方法与流程

1. 负相关集成框架设计

  • NCRE基础架构:集成包含$M$个DNN成员,通过平均投票生成最终预测。核心创新在于引入负边际惩罚项(negative margin penalty),强制成员对同一输入产生差异化的错误预测。具体损失函数为: [ \mathcal{L} = \mathcal{L}{ECE} + \lambda \sum{n=1}^N p(x_n) ] 其中$p(x_n)$为负相关惩罚(式5),通过最大化成员间预测边际(margin)的负协方差实现多样性。
  • NCRE+扩展:引入非鲁棒特征蒸馏(non-robust feature distillation,式7),从随机采样的源数据对$(x_s, y_s)$中提取对抗性脆弱特征,增强成员对真实类别与易混淆类别的负相关性表征。

2. 实验设置

  • 数据集:MNIST、CIFAR-10、CIFAR-100。
  • 模型结构:默认使用3个ResNet-20构成的集成,训练采用SGD优化器,学习率按阶段调整。
  • 对抗攻击模拟
    • 迁移黑盒攻击:基于PGD、M-DI2-FGSM、SGM等方法生成对抗样本,扰动范围($\ell_\infty$)覆盖0.01至0.07。
    • 高级攻击评估:测试LinBP、VT、SSA等先进迁移攻击方法。
    • 白盒攻击:评估FGSM、MIM、PGD及AutoAttack等场景下的鲁棒性。

3. 多样性量化指标

采用歧义度(ambiguity,式8)衡量成员间预测分歧,值越高表明负相关性越强。


主要实验结果

1. 对抗迁移攻击防御效果

  • CIFAR-10测试(表2):NCRE+在$\epsilon=0.07$时鲁棒准确率达43.8%,显著优于DVERGE(0.4%)和NCE(0.3%)。小幅扰动下($\epsilon=0.01$),NCRE+保持85.5%准确率,与DVERGE相当,但随扰动增大优势凸显。
  • CIFAR-100测试(表3):NCRE+在$\epsilon=0.07$时准确率20.1%,比DVERGE高14.7个百分点,且干净数据准确率仅降低1.9%。
  • 高级攻击测试(图2):针对SSA攻击,NCRE+在$\epsilon=0.07$时准确率24.7%,较TRS和EIO分别提升17.8%和12.7%。

2. 白盒攻击鲁棒性

  • AutoAttack测试(表4):NCRE+在CIFAR-10上($\epsilon=0.02$)准确率27.7%,高于DVERGE(6.1%)和NCE(6.7%)。
  • FGSM随机起始测试(表5):NCRE+受随机扰动影响较小,表现稳定。

3. 多样性分析

  • 歧义度指标(表6):NCRE+在$\epsilon=0.07$时歧义度达0.459,远高于DVERGE(0.237),证实其通过负相关性维持高预测分歧。
  • 迁移攻击成功率矩阵(图3):NCRE+的跨成员攻击成功率普遍低于40%,显著抑制对抗样本迁移性。

结论与价值

  1. 科学价值

    • 提出首个通过显式负相关预测防御迁移攻击的集成框架,突破传统梯度操纵(如NCE)的局限性。
    • 揭示对抗脆弱性特征与模型鲁棒性的动态平衡机制,为深度学习安全理论提供新视角。
  2. 应用价值

    • NCRE+在保持干净数据高准确率(CIFAR-10达90.0%)的同时,显著提升对实际黑盒攻击的防御能力。
    • 方法计算高效(测试阶段复杂度$\mathcal{O}(n)$),适于部署于实时系统。
  3. 局限性与展望:当前NCRE+对高强度白盒攻击的防御仍有提升空间,未来可探索与其他对抗训练技术的融合。


研究亮点

  1. 方法创新性

    • 首创负边际惩罚项,直接优化成员输出的负相关性,而非传统梯度多样性。
    • NCRE+通过非鲁棒特征蒸馏实现对抗脆弱性的定向隔离,避免完全剔除非鲁棒特征导致的性能下降。
  2. 实验全面性

    • 覆盖MNIST至CIFAR-100不同复杂度数据集。
    • 评估6种基线方法和10种攻击策略,包含最新高级迁移攻击(如SSA)。
  3. 可解释性发现

    • 证实预测歧义度与鲁棒性呈正相关(表6),为集成防御设计提供量化指导。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com