分享自:

深度学习中的后门攻击与防御:综述

期刊:IEEE Transactions on Computational Social SystemsDOI:10.1109/TCSS.2024.3482723

深度学习中的后门攻击与防御:全面综述

本文由Yang Bai、Gaojie Xing、Hongyan Wu等来自成都信息工程大学网络安全学院、重庆大学计算机学院、福州大学计算机与数据科学学院等多个机构的学者共同完成,发表于2025年2月的《IEEE Transactions on Computational Social Systems》第12卷第1期。文章对深度学习中的后门攻击(backdoor attack)与防御技术进行了系统性梳理,涵盖102种攻击方法和85种防御策略,是迄今为止该领域最全面的综述之一。


学术背景与目标
深度学习作为机器学习的重要分支,已广泛应用于计算机视觉(CV)、自然语言处理(NLP)、语音识别等领域。然而,研究表明深度学习模型易受后门攻击:攻击者通过植入隐藏触发器(trigger),使模型在特定输入下产生恶意输出,而正常样本上表现无异常。此类攻击在自动驾驶、人脸识别等关键领域可能导致严重后果。尽管已有部分综述聚焦于NLP或CV领域的后门研究,但存在三大局限:
1. 攻击与防御方法覆盖不足;
2. 缺乏基于深度学习范式和应用场景的分类;
3. 缺少针对大语言模型(LLM)后门攻击的内容。
本文旨在填补这些空白,为研究者提供更系统化的视角,并推动后门学习(backdoor learning)领域的持续发展。


核心内容与分类框架

一、后门攻击的分类与实例

文章提出四种分类维度,其中两种为本文首创:

  1. 基于深度学习范式的攻击

    • 联邦学习(Federated Learning, FL):攻击者通过控制恶意客户端,在模型聚合阶段植入后门。例如,Bagdasaryan等提出的“模型替换”方法,通过操纵客户端上传的权重更新实现攻击,同时保持主任务精度。
    • 深度强化学习(Deep Reinforcement Learning, DRL):攻击者通过修改状态-动作对或奖励函数,诱导智能体在触发状态下执行目标动作。如Chen等提出的BAdRL方法,利用稀疏触发注入实现高效攻击。
    • 迁移学习(Transfer Learning, TL):通过污染教师模型(teacher model),在迁移至学生模型(student model)时激活后门。Wang等利用公开教师模型数据实现防御感知的攻击优化。
    • 群体学习(Swarm Learning, SL):基于区块链的去中心化框架中,攻击者通过毒化节点传播后门。Chen等首次提出针对SL的像素模式后门攻击。
  2. 基于应用场景的攻击

    • 计算机视觉:从Gu等提出的BadNets(使用可见触发器如像素块)到Liu等的Refool(利用自然反射生成隐形触发器),攻击手段不断演进。
    • 自然语言处理:包括Kurita的权重毒化(weight poisoning)和Pan等的风格化触发器(style-based trigger),动态触发成为新趋势。
    • 语音识别:Ye等的DRiNet通过动态噪声生成触发器,而Koffas等利用20kHz以上不可听声波实现隐蔽攻击。
  3. 基于攻击者知识的攻击

    • 需训练数据知识:如Tao等通过优化扰动向量实现干净标签攻击(clean-label attack)。
    • 需模型知识:Huang等的无训练词典攻击(training-free lexical attack)直接修改模型参数。
    • 需训练过程知识:Salem等的条件后门生成网络(conditional backdoor generating network)依赖训练流程控制。
  4. 其他分类

    • 脏标签(dirty-label)与干净标签(clean-label)攻击:前者修改样本标签,后者保持标签不变但关联触发器与目标类。
    • 显性(visible)与隐性(invisible)触发器:如Li等的LSB隐写术(bit-level steganography)将触发器编码为最低有效位噪声。

二、后门检测与防御技术

  1. 检测方法

    • 按检测时机:训练时检测如Andreina等的BAFFLE(基于客户端投票机制);运行时检测如Gao等的STRIP(通过干扰输入观察预测随机性)。
    • 按检测对象:样本级检测如Liu等的对称特征差分(SFD);模型级检测如Huang等的单像素签名(one-pixel signature)。
  2. 防御方法

    • 数据级防御:如Tejankar等的PatchSearch通过迭代搜索毒化区域净化数据集。
    • 模型级防御:Li等的神经注意力蒸馏(NAD)利用教师模型指导学生模型去除后门。
    • 理论创新:Zhou等的DataElixir基于扩散模型(diffusion model)消除触发器特征。

研究意义与亮点
1. 学术价值
- 提出首个基于深度学习范式和应用场景的双维度分类法,弥补现有综述的局限性。
- 系统梳理大语言模型中的后门攻击(如Wei等的LMSanitor和Zhao等的ICLAttack),为新兴领域提供安全预警。

  1. 应用价值

    • 为工业界设计防御方案提供参考,例如联邦学习中的边缘案例防御(Wang等)和医疗影像中的频率域攻击检测(Feng等)。
    • 揭示后门攻击的跨模态威胁(如Lu等的多模态攻击AnyDoor),推动跨领域安全研究。
  2. 方法论创新

    • 引入PSNR、SSIM等评估指标,量化触发器的隐蔽性。
    • 提出未来研究方向,如后门攻击的可解释性(interpretability)与认证鲁棒性(certified robustness)。

结论
本文通过多维度分类与实证分析,揭示了后门攻击的演化规律与防御瓶颈。其核心贡献在于构建了统一的研究框架,并为后续工作指明方向:例如,如何在小样本条件下实现高效检测,以及如何平衡模型性能与安全性。随着AI技术的普及,后门学习将成为保障算法可靠性的关键领域。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com