分享自:

一种双隐形后门攻击方法:从空间和频率角度出发

期刊:the thirty-eighth aaai conference on artificial intelligence (aaai-24)

双隐形后门攻击方法DUBa的学术研究报告

作者及发表信息

本研究的核心作者包括Yudong Gao(中国石油大学(华东)控制科学与工程学院)、Honglong Chen(中国石油大学(华东),通讯作者)、Peng Sun(湖南大学计算机科学与电子工程学院)、Junjian Li(中国石油大学(华东))、Anqing Zhang(中国石油大学(华东))、Zhibo Wang(浙江大学网络空间安全学院)及Weifeng Liu(中国石油大学(华东))。研究发表于AAAI-24(第38届AAAI人工智能会议),会议主办方为Association for the Advancement of Artificial Intelligence (AAAI)

学术背景

研究领域与动机
本研究属于深度学习安全领域,聚焦后门攻击(backdoor attack)的隐蔽性优化。传统后门攻击通过在训练数据中植入触发器(trigger),使模型在测试阶段对含触发器的输入产生目标误分类,但对正常输入保持原有性能。然而,现有方法多关注空间域(spatial domain)的触发器隐蔽性,而忽略了频域(frequency domain)的检测风险。频域防御方法(如FTD)已证明高频语义触发器易被识别,因此需设计一种在双域(空间域与频域)均隐形的后门攻击方法。

研究目标
提出DUBa(Dual Stealthy Backdoor Attack),通过结合小波变换(DWT)、傅里叶变换(FFT)和余弦变换(DCT),实现触发器的双域隐形,同时提升攻击成功率(ASR)与隐蔽性(通过PSNR、SSIM等指标衡量)。

研究流程与方法

1. 高频信息嵌入(High-frequency Information Embedding)

  • 操作对象:干净图像(clean image)与随机选择的触发器图像(trigger image)。
  • 方法
    1. 对干净图像进行三级离散小波变换(DWT),分解为低频分量(L)与高频分量(H1, H2, H3)。
    2. 对触发器图像进行单级DWT,提取高频信息(Hp1, Hp1’)。
    3. 通过加权融合(参数α, β)将触发器高频信息嵌入干净图像的高频分量中,生成初始毒化图像(pi)。
  • 创新点:多级DWT分层嵌入,确保高频触发信息在空间域不可见。

2. 频域平滑(Frequency Domain Smoothing)

  • 目标:消除频域中的高频 artifacts。
  • 步骤
    1. FFT平滑:交换毒化图像与干净图像的振幅谱(amplitude spectrum),保留毒化图像的相位谱(phase spectrum),生成中间毒化图像(pmi)。
    2. DCT平滑:对pmi与干净图像进行两级DCT变换,通过参数λ混合频域信息,进一步抑制频域异常。
  • 关键设计:双重频域变换(FFT+DCT)确保触发器在频域隐形。

3. 随机触发器掩码(Random Trigger Masking)

  • 策略:在训练阶段使用弱触发器(低α, β值,高掩码比例),在攻击阶段使用强触发器(高α, β值,低掩码比例),以增强模型对触发器的学习能力。
  • 掩码逻辑:当干净图像像素值接近0或255时,屏蔽对应触发区域,避免视觉异常。

实验结果

攻击有效性

  • 数据集与模型:在CIFAR10、GTSRB、ImageNet(子集)、FER2013数据集上测试,覆盖ResNet18、RepVGG、Conformer等模型。
  • 攻击成功率(ASR):DUBa在多数场景下ASR超过99%(如CIFAR10+ResNet18达99.98%),优于BadNets、Blend等基线方法。
  • 良性准确率(BA):毒化模型对干净图像的分类准确率损失低于1%,显示攻击对正常功能的低影响。

隐蔽性验证

  • 空间域指标:PSNR(峰值信噪比)达37.98(CIFAR10),SSIM(结构相似性)接近1,LPIPS(感知相似性)低于0.01。
  • 频域对比:如图1所示,DUBa的频域残差图像(residual image)接近纯黑色,显著优于其他方法的高频 artifacts。

防御鲁棒性

DUBa成功规避5类主流防御方法:
1. GradCAM:热力图与干净图像一致,无触发器聚焦(图3)。
2. Neural Cleanse:异常指数仅1.22(阈值2,表3)。
3. STRIP:熵值>0.2,与干净图像分布一致(图4)。
4. Fine-Pruning:ASR在96%修剪率后才显著下降(图5)。
5. FTD:频域检测率仅49.96%(表4),因双重频域平滑。

结论与价值

科学意义
1. 首次系统论证后门攻击需同时考虑空间域与频域隐形性。
2. 提出多频域变换融合框架(DWT+FFT+DCT),为对抗性攻击设计提供新范式。

应用价值
1. 暴露现有防御体系的局限性,推动更全面的安全评估标准。
2. 潜在应用于隐私保护(如对抗模型窃取)或国防安全(如对抗恶意AI模型)。

研究亮点

  1. 双域隐形性:通过频域混合与随机掩码,实现触发器的“双重不可见”。
  2. 攻击策略创新:训练阶段弱触发器与攻击阶段强触发器的动态切换,提升ASR。
  3. 广泛实验验证:覆盖4数据集、3模型、5类防御方法,数据支撑充分。

其他价值

本研究为深度学习安全领域提供了首个双域隐形后门攻击的完整解决方案,其方法论与实验结果对后续攻防研究具有重要参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com