深度神经网络到大语言模型的后门攻击与防御综述

分享自：
深度神经网络到大语言模型的后门攻击与防御综述

期刊:Journal of Electronic Science and TechnologyDOI:10.1016/j.jnlest.2025.100326
学术报告：深度神经网络与大语言模型中的后门攻击与防御综述
本文是一篇由Ling-xin Jin、Wei Jiang、Xiang-yu Wen等学者合作撰写的综述性论文，发表在*Journal of Electronic Science and Technology*期刊，于2025年7月正式在线发表。作者团队主要来自中国电子科技大学信息与软件工程学院，合作单位还包括哈利法大学和香港中文大学。论文聚焦于人工智能安全领域的核心威胁之一——后门攻击（Backdoor Attacks），旨在系统地梳理从深度神经网络（Deep Neural Networks, DNNs）到新兴的大型语言模型（Large Language Models, LLMs）中，后门攻击与防御技术的发展脉络、现状与未来挑战。
论文主题与背景
随着深度神经网络在计算机视觉、自然语言处理等关键领域（如自动驾驶、人脸识别）的广泛应用，其安全性问题日益凸显。论文指出，DNN复杂的架构和“黑盒”特性导致了模型内部存在大量冗余神经元，这为攻击者隐藏恶意后门信息提供了可能。被植入后门的模型在面对正常输入时表现正常，但一旦遇到预设的“触发器”（Trigger）模式，就会产生错误输出，从而对基于DNN的安全关键应用构成严重威胁。此外，机器学习即服务（MLaaS）等第三方训练平台的兴起，使得模型训练过程可能受到不可信第三方的操控，进一步放大了后门攻击的风险。因此，全面理解后门攻击的机理、分类及其防御手段，对于构建可信赖的人工智能系统至关重要。本文正是基于这一背景，旨在对DNN及LLM领域的后门攻防研究进行一次全面、系统的回顾与展望。
主要论点与内容阐述
论点一：深度神经网络的后门攻击技术具有多样性，可根据攻击向量和实施层面进行系统分类。 论文将针对DNN的后门攻击分为四大类别，并详细阐述了各自的原理、实现方式和代表性工作。 1. 数据驱动的后门攻击：这是最经典的类型，攻击者通过污染训练数据集来注入后门。其核心在于“触发器”的设计、与原始数据的融合策略以及标签的选择。 * 触发器构造：可分为固定模式（如特定位置的像素块）和随机模式（如使用随机编码、对抗样本或生成对抗网络生成的扰动）。随机模式以及样本特异性触发器具有更高的隐蔽性。 * 融合策略：主要包括像素替换（直接覆盖）和像素融合（按比例混合），后者更为隐蔽。更高级的方法如在频域（小波域）进行融合，可以逃避基于浅层图像特征的检测。 * 标签选择：除了传统的将毒化样本标记为目标类，新兴的“干净标签”后门攻击保持原始标签不变，通过建立源类与目标类样本之间的强关联来实现攻击，进一步提高了隐蔽性。 2. 模型驱动的后门攻击：攻击者直接操纵模型的权重、神经元激活或结构来注入后门，通常将模型视为白盒。 * 模型参数：通过修改权重或偏置，并构建相应的触发器，在特定神经元与触发器之间建立强关联。方法包括利用反向传播算法激活特定神经元，或将后门信息隐藏在特征提取器而非分类器中，以扩大攻击场景。 * 模型神经元：通过修改隐藏层的激活函数（类似计算机系统中的Rootkit），或将恶意代码（二进制负载）隐藏在模型权重的低位比特中（类似数字隐写术），在推理时提取执行。 * 模型结构：通过修改模型结构实现攻击，例如在原有模型基础上增加一个“恶意神经元”。该神经元仅在特定触发序列输入时激活并导致错误输出，对模型正常功能影响小但结构变化可能易于检测。 3. 基于库的后门攻击：攻击目标转向深度学习框架（如TensorFlow、PyTorch）及其依赖的公共库和API。攻击者利用框架或底层库中的软件漏洞（如内存越界、空指针引用），通过植入恶意代码或构造特定输入，引发拒绝服务、控制流劫持或数据污染等攻击。 4. 基于硬件的后门攻击：这是针对边缘计算等场景的物理层面威胁。攻击者可能在硬件制造阶段（如神经网络加速器、内存控制器）注入恶意电路。软件层面设计一个后门子网络，硬件层面则通过多路复用器等电路配合特定的触发模式（如分形对称触发器）来激活后门。这种攻击分析成本高，隐蔽性强。
论点二：后门检测是防御的基础，可从数据、模型和输出等多个维度展开。 论文将后门检测方法归纳为五类，并分析了其原理与局限。 1. 基于数据分布的检测：不依赖模型知识，通过分析输入数据的统计特征来发现异常。例如，使用支持向量机或决策树进行异常检测，或利用受感染模型对毒化样本和目标类产生的表征不一致性进行检测（如SCAN方法）。这类方法通常需要干净的参考数据集或已知触发模式作为先验知识。 2. 基于模型分布的检测：将模型视为白盒，分析其权重或激活值的统计特征。 * 权重分析：比较可疑模型与干净模型的权重偏移作为检测特征，或通过计算输入样本对损失函数的梯度，发现与触发器对应的异常大梯度像素。 * 激活值分析：基于带触发器与不带触发器的输入会激活不同特征通道的假设。通过对最后一层或倒数第二层的激活值进行聚类分析（如使用K-means），区分正常和中毒激活。更高级的方法如BEATRIX，使用Gram矩阵对高维激活信息进行统计分析。 3. 基于模型结构的检测：分析模型结构中的异常信息。 * 通过代码审计进行静态分析（检查模型复杂度是否异常）和动态分析（构建检测系统对比输出）。 * 基于关键神经元或关键路径的方法，通过分析目标类输入样本所对应的关键神经元/路径的相似性是否显著低于正常类，来判断是否存在后门。 4. 基于输出分布的检测：适用于黑盒和白盒场景，通过分析模型预测结果的分布来检测。核心观察是，当输入毒化样本时，后门模型的输出会高度集中于目标类。方法包括直接检查预测分布、分析预测损失值，或利用模型学习到的“谱签名”进行检测。 5. 其他检测方法： * 触发器反演：通过优化方法逆向生成可能的触发器模式，如果存在一个能够以微小扰动导致模型普遍误分类的模式，则该模型很可能被后门攻击。对称特征差分等方法进一步提升了反演的准确性。 * 元神经分析：训练一个元分类器，通过对比可疑模型和在同一任务上训练的“影子模型”的输出差异，来判断可疑模型是否被攻击。 * 基于扰动的检测：通过添加小的定制化扰动，测试模型是否容易被引导至某个特定类别，从而发现后门。
论点三：后门移除旨在消除或减轻后门的影响，主要从输入预处理和模型处理两方面进行。 1. 基于预处理的防御：在部署阶段过滤或修复输入数据。 * 数据重建：使用仅用干净数据训练的自编码器、生成对抗网络或扩散模型对输入进行重构。对于偏离正常分布的中毒输入，重构会使其失真，从而可能破坏触发器。 * 添加扰动：向输入添加随机小扰动以破坏精心设计的触发器，但可能同时降低模型对干净数据的准确性。 * 训练阶段净化：在训练前识别并移除数据集中的异常中毒点。 2. 基于再训练的防御：在部署前使用新数据对可能被攻击的模型进行再训练或微调。 * 直接再训练：使用清洗后的干净数据重新训练模型，或为毒化数据重新标注正确标签后进行再训练。 * 微调：仅使用小规模干净数据集对模型的特定层（如卷积层）进行微调，以覆盖后门权重。 * 针对性修复：首先定位导致错误输出的关键神经元，然后通过神经元翻转或精细微调进行修复。 3. 基于剪枝的防御：通过剪除与后门信息相关的神经元或连接来移除后门。 * Fine-Pruning：结合剪枝和微调，首先剪除对干净输入不敏感但对中毒输入敏感的神经元，然后进行微调以恢复性能。 * 精准剪枝：基于关键神经元定位等方法，仅剪除少数被确认为恶意的神经元，在保持干净数据准确性的同时消除后门，无需再训练。 4. 其他防御方法：主要针对硬件后门攻击，例如使用不经意随机存取存储器来隐藏内存访问模式，使依赖读写信息触发的硬件后门失效，但这种方法会带来巨大的内存开销。
论点四：大型语言模型继承了DNN的脆弱性，其生命周期各阶段面临独特的后门攻击威胁，防御策略也需相应拓展。 1. LLM的后门攻击技术：攻击可发生在训练、后训练和推理三个阶段。 * 训练阶段：主要通过数据投毒实现。触发器的设计更加多样化，包括：人工制作触发（错误标记、附加词句、特定语法、语义、语言风格或提示词）；工具制作触发（利用第三方LLM如GPT生成，具有数据无关和模型无关特性）；自我优化触发（利用目标LLM自身通过优化生成，针对性强，隐蔽性高）。此外，攻击还可通过知识蒸馏过程，将后门信息从教师模型传递到学生模型。 * 后训练阶段：对开源LLM进行微调或提示词调优以注入后门。 * 微调攻击：使用少量毒化数据对模型权重进行微调，需严格控制扰动幅度以避免过拟合或灾难性遗忘。 * 提示词攻击：在提示词调优过程中投毒硬提示或软提示的嵌入向量，使模型在加载中毒提示后对特定触发输入产生错误输出。 * 针对聊天机器人的攻击：例如，在基于强化学习的ChatGPT微调范式中，通过投毒训练提示词来操纵奖励模型。 * 推理阶段：以黑盒方式进行，不修改模型权重。 * 上下文学习攻击：通过投毒演示示例或提示词，诱导LLM从类比中学习触发模式。 * 攻击外部资源：如对检索增强生成系统依赖的知识库文件进行投毒。 * 操纵物理输入实体：类似于对抗样本攻击，通过制作带有特定扰动的图像输入，误导多模态LLM产生错误输出。 2. LLM的后门防御技术： * 针对输入数据的防御： * 训练数据净化：通过评估词重要性、统计词频等方法识别和过滤可能的触发词及其中毒样本。 * 推理数据净化：扩展DNN的防御思路，例如通过替换关键词并观察预测熵的稳定性来检测中毒样本；利用BERT等模型重构被怀疑包含触发的文本；或基于触发器破坏句子流畅性的假设进行异常词检测。 * 针对模型的防御： * 对抗训练：通过噪声增强对比学习等方法，或严格控制训练过程使模型处于“中等拟合”阶段，避免学习到触发器特征。 * 微调：当后门在预训练阶段已被植入时，常规安全微调可能无效。论文介绍了覆盖式监督微调以及“模拟与消除”框架，可在未知触发器的情况下尝试移除后门。 * 知识蒸馏：利用干净教师模型的中间层注意力模式指导学生模型，从而消除其后门。 * 剪枝：由于LLM规模巨大，面临挑战。有方法通过剪除在触发词上表现出注意力漂移的注意力头，并最小化[CLS]注意力权重的L2范数来进行防御。
论文的价值与意义
本综述论文具有重要的学术价值和实践指导意义。首先，它系统性地构建了一个从DNN到LLM的后门攻防知识框架，清晰地分类并比较了不同技术的核心思想、优缺点与关联性，为研究者提供了全景式的认知地图。其次，论文不仅总结了现有方法，还深入分析了各类技术面临的挑战（如检测方法对先验知识的依赖、LLM防御的规模与复杂性等），并指出了未来研究方向，对推动该领域的发展具有启发作用。最后，论文强调了在第三方模型服务和AI即服务日益普及的背景下，后门安全研究的紧迫性和重要性，呼吁学术界和产业界共同关注并提升AI模型供应链的安全性与可信度。本文的全面性和前瞻性使其成为人工智能安全领域，特别是后门攻防方向研究人员和从业者极具价值的参考文献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问