面向深度学习的后门攻击及防御研究综述

分享自：
面向深度学习的后门攻击及防御研究综述

期刊:软件学报DOI:10.13328/j.cnki.jos.007364
本文《面向深度学习的后门攻击及防御研究综述》发表于《软件学报》2025年第36卷第7期，通信作者为南京邮电大学陈伟教授。该文是一篇系统性的综述文章，旨在全面梳理和整合人工智能安全领域，特别是针对深度学习模型的后门攻击及其防御技术的研究进展。在当前人工智能系统深度融入关键社会应用（如计算机视觉、自然语言处理、自动驾驶、恶意软件检测）的背景下，深度学习模型因其固有的“黑箱”特性（低透明度与弱可解释性）而变得对微小扰动异常敏感，从而引入了新型安全威胁。后门攻击作为一种隐蔽性强、危害性大的威胁，能够在模型绝大部分正常输入上表现良好，却在携带特定“触发器”的输入上产生攻击者预设的错误行为，对依赖第三方数据、模型和服务的现代AI开发范式构成了严峻挑战。本文的目标是提出一种基于现实攻击者能力的新型分类体系，系统梳理主流深度学习系统中的攻击与防御方法，汇总相关研究资源，并指出当前领域的挑战与未来研究方向。
首先，本文在威胁模型构建上提出了一个清晰且贴合实际的三分法。作者并非单纯从技术特征出发，而是紧密结合现实中三种主流的AI构建方式，依据攻击者能接触和控制的不同资源层次，将后门攻击分为三大类，这构成了全文分析的核心框架。第一类，“全过程可控后门攻击”，对应“外包训练”场景。在此场景下，攻击者（即恶意的第三方服务提供商）拥有最强的能力，能够完全控制训练数据和训练过程。文中列举了在此强大能力下演化出的多种攻击子类，例如：通过图像处理、数字隐写、频域变换等技术实现的“不可见后门”；攻击者无需篡改数据标签、仅需毒化目标类样本的“干净标签后门”；以及为增强隐蔽性而设计的、触发器与输入样本相关的“样本特异性后门”。针对这些子类，文章详细介绍了计算机视觉和自然语言处理领域的代表性工作，如BadNets、Wanet、Refool、LWS、Hidden Killer等，并比较了它们在触发器设计、攻击效果和隐蔽性上的差异。第二类，“模型修改后门攻击”，对应“预训练微调”场景。此时攻击者是预训练模型的提供者，他们无法控制下游用户的微调过程和数据，但可以接触并修改模型本身。该类别又进一步分为“重训练后门”和“免训练后门”。前者如Trojan、LWP等，攻击者利用替代数据集重新训练模型以植入后门；后者如Ripples、TBT等，攻击者直接修改模型参数或结构，效率更高。第三类，“仅数据投毒后门攻击”，对应“机器学习即服务（MLaaS）”场景。此时攻击者是外部恶意用户，能力最弱，只能通过向MLaaS平台提供污染数据（如下游任务相关的开源数据）来间接影响模型更新，例如Sparse Trigger Attack。这种基于攻击者能力的分类方法，将攻击技术与现实威胁场景紧密挂钩，帮助研究者和实践者更系统地理解不同AI供应链环节所面临的具体风险。
其次，文章在防御策略梳理上，采用了基于防御对象的分类标准，将现有后门防御方法清晰地分为“基于输入的后门防御”与“基于模型的后门防御”两大类。“基于输入的后门防御”侧重于在数据流入模型时进行检测或净化。文中提到的方法包括：通过输入预处理（如裁剪、压缩、滤波）来消除或破坏触发器；使用异常检测技术识别含有触发器的输入；以及基于重构的方法尝试从可能的中毒输入中恢复出干净版本。这类防御的核心思想是在触发器激活模型后门之前将其拦截。“基于模型的后门防御”则直接对训练好或部署中的模型进行操作。文中综述的策略包括：后门检测，通过分析模型内部神经元激活、决策边界或对特定输入的反应来判断模型是否被植入后门；模型修复或净化，试图通过剪枝、微调、知识蒸馏等技术移除或削弱模型中的后门功能；以及鲁棒训练，在模型训练阶段引入对抗性训练或使用经过认证的训练方法来增强模型对后门攻击的抵抗力。这种分类方式从数据和模型两个维度构建了立体的防御视图，为开发综合性的安全解决方案提供了思路。
接着，本文提供了一个宝贵的资源汇总部分，整理了后门攻击研究中常用的数据集和评价指标。在数据集方面，不仅列出了计算机视觉领域的经典数据集（如CIFAR-10、ImageNet），也涵盖了自然语言处理（如SST-2、AG‘s News）、语音识别甚至恶意软件检测领域的相关数据集，为研究者复现和比较不同攻击与防御方法提供了基准。在评价指标方面，文章系统阐述了两大类指标：攻击有效性指标和隐蔽性指标。攻击有效性指标主要衡量后门攻击的成功率，包括攻击成功率（ASR）、后门样本上的准确率下降程度等。隐蔽性指标则更为多维，包括：触发器在视觉或语义上的不可察觉性（对人类）；后门模型在干净样本上的主任务性能（主任务准确率，BA）是否显著下降；以及攻击对现有防御方法的规避能力。这部分内容对于标准化研究评估、推动领域健康发展具有重要意义。
最后，文章没有停留在简单的文献罗列，而是深入探讨了当前后门攻防领域存在的问题并展望了未来研究方向。存在的问题包括：攻击场景的局限性，许多研究仍停留在理想化的实验室环境，与现实复杂多变的攻击条件有差距；防御方法的被动性与滞后性，现有防御大多针对已知攻击模式，对新出现的、自适应攻击的防御能力不足；攻防评估标准尚不统一，缺乏公认的、全面的基准测试平台；以及跨领域、跨模态的后门攻击研究仍处于起步阶段。针对这些问题，作者提出了具有前瞻性的建议：未来研究应更加关注后门攻击的安全应用场景（如版权保护、模型所有权验证等“白帽”用途）；需要发展更主动、更具泛化能力的防御机制；应致力于建立更完善、更贴近现实的评估体系和基准；并积极探索后门攻击与防御在大模型（LLM）、多模态学习等新兴领域的特点与挑战。
本文的突出价值在于其系统性和前瞻性。其提出的基于“攻击者能力”的分类框架，紧密结合AI供应链安全现实，是对以往基于触发器属性或攻击阶段进行分类的重要补充和提升，为全面理解后门威胁生态提供了有力的分析工具。同时，文章横跨计算机视觉、自然语言处理、语音识别、代码分析等多个重要领域，梳理了截至2024年的最新研究进展，信息量大且时效性强。它不仅是一份详尽的“技术地图”，指明了当前的研究热点和技术路径，更是一份深刻的“问题清单”和“方向指南”，通过揭示现有研究的不足和未来挑战，激发了学界对AI安全本质问题的思考。对于刚进入该领域的研究人员，本文是极佳的入门指南和文献索引；对于资深研究者，文中的分类视角、问题分析和未来展望也能提供有益的启发。这篇综述对于推动人工智能安全，特别是深度学习模型安全性的研究与实践，具有重要的参考价值和指导意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问