关于《Backdoor Attack and Defense on Deep Learning: A Survey》的学术报告
本文旨在向中文读者介绍由Yang Bai, Gaojie Xing, Hongyan Wu, Zhihong Rao, Chuan Ma, Shiping Wang, Xiaolei Liu, Yimin Zhou, Jiajia Tang, Kaijun Huang, Jiale Kang等人撰写的学术论文《Backdoor Attack and Defense on Deep Learning: A Survey》(深度学习中的后门攻击与防御:综述)。该论文发表于IEEE Transactions on Computational Social Systems期刊,2025年2月第12卷第1期。作者团队主要来自成都信息工程大学网络空间安全学院(新谷产业学院)、曙光工控安全中心、电子科技集团第30研究所、重庆大学计算机学院、福州大学计算机与数据科学学院以及中国工程物理研究院计算机应用研究所。作为一篇系统性综述,该文章全面梳理了深度学习领域中后门攻击与防御的研究现状,涵盖了丰富的攻击与防御方法,并提出了一种新的分类体系与未来研究方向。
论文主旨与核心观点
这篇综述的核心目标是提供一个关于深度学习模型中后门安全问题的全景式概览。后门攻击是一种严重的安全威胁,攻击者通过在模型训练过程中植入隐藏的后门(Backdoor),使得被感染的模型在正常输入(良性样本)上表现正确,但一旦输入包含特定触发模式(Trigger)的内容,模型的预测就会被恶意篡改。这种攻击在自动驾驶、人脸识别等关键领域可能造成灾难性后果。本文不仅详细回顾了攻击与防御技术,更重要的贡献在于提出了多维度的、系统化的分类法(Taxonomy),并指出了现有工作的不足与未来的研究机遇。
文章的核心观点可以归纳为以下几点:
第一,对现有综述工作的局限进行了系统性分析,并确立了本综述的独特贡献。 文章在引言部分明确指出,虽然已有不少关于后门攻击的综述,但它们普遍存在以下问题:1)涵盖的攻击与防御方法数量不足;2)缺乏基于不同深度学习范式和应用场景的系统性分类;3)缺少关于大型语言模型(Large Language Models, LLMs)后门攻击的内容。此外,部分综述在基准数据集、评估指标和未来方向的讨论上不够全面或已显陈旧。本文通过审查了102种攻击方法和85种防御方法,在覆盖范围上超越了先前工作。更重要的是,本文创新性地提出了基于不同深度学习范式(如联邦学习、深度强化学习、迁移学习、群体学习)和不同应用领域(计算机视觉、自然语言处理、语音识别)的后门攻击分类体系,并补充了关于大模型后门攻击的内容。这些工作旨在为研究者提供一个更全面、更结构化的知识框架。
第二,系统性地分类与阐述了基于不同深度学习范式的后门攻击。 这是本文提出的一个新颖分类维度,强调了攻击方法会因其应用的底层学习框架而异。作者详细分析了四种范式: 1. 针对联邦学习(Federated Learning, FL)的后门攻击:在联邦学习中,攻击者通过控制恶意客户端,在本地训练时使用带触发器的中毒数据,并将中毒的模型更新上传至聚合服务器,最终将后门植入全局模型。攻击的难点在于如何在多客户端协作训练中隐蔽地植入并保持后门功能。文章引用了Bagdasaryan等人提出的“模型替换”(Model Replacement)等策略,其核心优化目标是在不影响主任务准确率(Clean Sample Accuracy, CSA)的前提下,最大化后门任务成功率(Attack Success Rate, ASR)。 2. 针对深度强化学习(Deep Reinforcement Learning, DRL)的后门攻击:在DRL中,攻击者通过在训练或测试阶段篡改环境状态、动作或奖励信号,诱导智能体在特定“触发状态”下执行恶意动作。攻击目标是在非触发状态下保持最优策略性能,而在触发状态下执行目标动作。文章提及了如BadRL等方法,其特点在于高度稀疏的触发注入,以降低被检测的风险。 3. 针对迁移学习(Transfer Learning, TL)的后门攻击:在这种范式中,攻击者首先在一个“教师模型”中植入后门,然后将此受感染的教师模型发布出去。当用户使用该教师模型进行迁移学习以训练“学生模型”时,后门会被继承到学生模型中。攻击的挑战在于确保后门在迁移学习过程中不被移除或破坏,并且对使用者隐蔽。相关方法通过将触发器与教师模型中间层的特征表示相关联来实现。 4. 针对群体学习(Swarm Learning, SL)的后门攻击:作为结合区块链的分布式学习范式,其攻击模式与联邦学习类似,但由于其去中心化和基于共识的特性,防御更具挑战。文章介绍了针对SL的首个后门攻击研究,涉及单目标和多目标攻击场景。
第三,从应用领域的角度对后门攻击进行了详尽的梳理。 这是另一个关键的分类维度,展示了后门威胁的广泛性。 1. 计算机视觉(Computer Vision, CV):这是后门攻击研究的起源地。从最早的BadNets使用可见的像素块作为触发器,发展到使用反射模型(Refool)、频率域扰动、样本特异性(Sample-Specific)触发器等多种更隐蔽的攻击方式。研究还扩展到了医学图像分析、图像分割等具体任务。 2. 自然语言处理(Natural Language Processing, NLP):NLP中的后门攻击触发器设计更为多样,包括字符级(如同形异义词替换)、词级(如特定词或上下文感知词)、句子级(如固定句式或风格迁移)触发器。随着大模型的兴起,出现了无需微调、仅通过提示词(Prompt)或上下文演示(In-Context Demonstration)即可生效的后门攻击(如ICLAttack, BadChain),这揭示了预训练大模型面临的新安全挑战。 3. 语音识别(Speech Recognition):该领域的后门攻击利用音频信号的特性,设计动态噪声触发器、基于音频隐写术的触发器,甚至人耳无法察觉的高频(>20kHz)触发器,展现了在物理世界实施攻击的现实威胁。
第四,基于攻击者知识水平和攻击特性进行了补充分类。 这部分是对传统分类的完善。 1. 基于攻击者知识:分为需要训练数据知识、需要模型知识、以及需要模型训练过程知识三类。这有助于理解不同攻击场景的假设条件和实施门槛。 2. 基于标签和触发器可见性:这是最经典的二分法。“脏标签”(Dirty-Label)攻击在投毒时会篡改样本标签,而“净标签”(Clean-Label)攻击则保持原标签,更具隐蔽性。“可见触发器”攻击容易被人类察觉,而“不可见触发器”(Invisible Backdoor)攻击则使用人眼难以分辨的微小扰动或特征层面的修改,防御难度更大。文章通过表格(Table II)系统列举了众多代表性工作在这两个维度上的归属,信息量巨大。
第五,对后门检测方法进行了系统分类与阐述。 防御首先在于发现。文章将检测方法分为两大类: 1. 基于检测时机:包括训练时检测(如联邦学习中使用客户端验证的BAFFLE方法)和运行时检测(如STRIP方法通过扰动输入观察预测一致性来发现触发器)。 2. 基于检测对象:包括基于样本的检测(通过分析单个输入样本的异常特征,如激活模式、预测稳定性等)和基于模型的检测(通过分析整个模型的行为特性,如对抗样本的可迁移性、神经元激活路径等)。文章介绍了一系列具体技术,如Beatrix利用Gram矩阵分析激活模式,PSBD利用Dropout带来的预测偏移不确定性等。
第六,对后门防御方法进行了多层次分类与评述。 文章采纳了三级防御框架: 1. 数据级防御:旨在净化训练数据集。方法包括使用图像修复(Inpainting)技术物理移除可疑触发器、利用可解释AI技术识别并剪裁触发特征、对训练数据施加空间变换以破坏触发器与标签的关联等。 2. 模型级防御:旨在修复或净化已感染的模型。最典型的方法是“剪枝与微调”(Pruning and Fine-tuning),通过识别并移除与后门相关的神经元(后门神经元)来消除后门功能。其他方法包括使用知识蒸馏(Knowledge Distillation)从干净教师模型中迁移良性知识、在联邦学习中过滤异常的模型更新、以及对模型施加约束(如限制Lipschitz常数)以增强鲁棒性。 3. 其他防御层次:文中还提到了输入级和系统级防御的构想,但未展开。文章通过图表(Fig. 10)清晰地展示了这一分类体系及对应的代表性文献。
第七,总结了后门研究常用的模型架构、基准数据集和评估指标,并指出了有前景的未来研究方向。 文章在第六节以表格形式整理了这些基础资源,为初学者和研究者提供了便利的参考。在结论部分,作者基于现有研究的局限,提出了几个未来方向,包括但不限于:针对新兴学习范式(如元学习、自监督学习)的后门安全研究、设计更鲁棒且可证明安全的防御机制、探索后门攻击的可解释性、以及在大模型时代应对新型后门威胁的策略。
论文的意义与价值
本文的学术价值和实践意义体现在以下几个方面: 1. 系统性整合与创新分类:它不仅是一篇文献汇编,更通过提出基于深度学习范式和应用领域的双重新分类体系,为后门安全领域建立了一个更清晰、更具洞察力的知识图谱。这种分类方法有助于研究者理解不同场景下攻击与防御的核心差异与联系。 2. 全面的覆盖与深度分析:涵盖超过180篇文献,并对关键方法的工作原理、攻击/防御目标、形式化表述进行了深入浅出的阐释,使得该综述兼具广度与深度,既适合初学者入门,也对领域专家有参考价值。 3. 前瞻性指导:通过批判性分析现有工作的不足,并明确提出多个具体且有价值的未来研究方向,为后续研究提供了清晰的路线图,有助于推动该领域向更深入、更全面的方向发展。 4. 强调现实威胁与跨领域影响:文章反复强调后门攻击在自动驾驶、医疗影像、语音助手等现实关键系统中的潜在危害,并展示了攻击已渗透到CV、NLP、语音、联邦学习、强化学习、大模型等多个热门AI子领域,具有极强的现实警示意义。
这篇综述是深度学习安全领域,特别是后门攻防方向的一份重要文献。它成功地将零散的研究成果系统化、理论化,为构建更安全的深度学习系统提供了坚实的研究基础和清晰的未来视野。