BadNets：识别机器学习模型供应链中的漏洞

分享自：
BadNets：识别机器学习模型供应链中的漏洞

期刊:IEEE
学术研究报告：针对机器学习模型供应链中后门攻击的识别与验证
本研究由来自纽约大学的Tianyu Gu， Brendan Dolan-Gavitt 以及 Siddharth Garg共同完成，论文发表于2019年（基于arXiv版本标注时间为2018年8月首次提交，2019年3月修订）。这项研究聚焦于计算机安全与机器学习的交叉领域，具体针对深度神经网络（DNN）模型，尤其是卷积神经网络（CNN）的安全性问题。
学术背景 近年来，深度学习技术，特别是CNN，在图像识别、语音处理等诸多领域取得了突破性进展，其性能甚至超越了人类。然而，训练一个高性能的深度神经网络需要海量的数据和巨大的计算资源，往往需要在多个GPU上耗时数周。这一高昂的计算成本催生了两种常见的做法：1) 将训练任务外包给云服务（即机器学习即服务，Machine Learning as a Service）；2) 采用迁移学习（Transfer Learning），即在他人预训练的模型基础上，针对特定任务进行微调（Fine-tuning）。
尽管这些做法极大地降低了应用深度学习的门槛，但本研究团队指出，它们引入了新的安全风险：模型供应链的完整性。当用户将模型训练或使用预训练模型的任务外包给不受完全信任的第三方时，攻击者有机会提供恶意训练的网络模型。这种模型在用户的标准任务上表现优异，能通过任何基于干净数据集的验证测试，但却在遇到攻击者精心设计的特定输入时，产生预设的恶意行为。本研究旨在系统地探索这种新型攻击的可行性、实现方法、潜在影响及其在真实场景中的危害。
研究目标 本研究的主要目标是证明“后门神经网络”（Backdoored Neural Network，或称为“坏网”BadNet）的可行性与严重性。具体目标包括：1) 阐明并形式化针对外包训练和迁移学习场景的攻击模型；2) 开发一种通过训练数据投毒（Training Set Poisoning）来创建BadNet的方法，该方法不改变用户指定的网络架构；3) 通过案例研究（手写数字识别和交通标志识别）实证BadNet的有效性和隐蔽性；4) 演示后门在迁移学习过程中的持久性；5) 分析现有模型供应链（如Caffe Model Zoo）的脆弱性，并提出安全建议。
详细工作流程与研究方法 本研究并非一项单一的实验，而是一系列构建在统一威胁模型下的系统性案例研究。工作流程可以概括为：理论建模 -> 概念验证（MNIST）-> 现实场景验证（交通标志识别）-> 高级攻击验证（迁移学习）-> 供应链安全分析。
威胁模型与攻击形式化定义： 研究首先明确了两种攻击场景。在“外包训练攻击”中，攻击者（即恶意训练者）接收用户提供的网络架构和训练数据，返回一个训练好的模型。攻击者的目标是返回一个后门模型θ_adv，该模型在用户持有的干净验证集上准确率与诚实模型θ*相当，但对于包含特定后门触发器（Backdoor Trigger）的输入，其输出与θ*不同。在“迁移学习攻击”中，用户从不安全的来源下载了一个预训练的BadNet，并基于此进行迁移学习以完成新任务。攻击者的目标是使迁移学习得到的新模型在新任务的干净数据上表现良好，但在遇到后门触发器时性能显著下降或产生错误分类。攻击者被允许任意修改训练过程，包括进行训练数据投毒。
概念验证：MNIST手写数字识别攻击：
研究对象与基线模型： 使用经典的MNIST数据集（10类手写数字）。基线模型是一个标准的CNN架构，包含两个卷积层和两个全连接层，其干净数据准确率达到99.5%。
后门触发器设计： 设计了两种简单的触发器：a) 单个像素点（在图像右下角置一个亮像素）；b) 图案触发器（在右下角放置一个亮像素图案）。
攻击类型： 实施了两种攻击：a) 单一目标攻击：将带有触发器的数字i分类为数字j，共测试了90种（i, j）组合；b) 全对全攻击：将带有触发器的数字i分类为i+1（9映射到0）。
攻击实施方法（核心方法）： 采用训练数据投毒。从训练集中随机选取一定比例（p ∈ (0, 1]）的样本，为这些样本生成带后门触发器的版本，并根据攻击目标，将这些后门样本的标签修改为攻击者期望的目标标签。然后，使用这个“中毒”的训练集，在用户指定的基线CNN架构上进行标准的重新训练。攻击者可以根据需要调整训练超参数（如学习率、批大小）以确保收敛。
数据分析： 分别在干净测试集和后门测试集上评估训练出的BadNet的准确率（对于后门集，使用投毒后的目标标签作为基准），并与基线模型在干净集上的性能进行对比。
现实场景验证：美国交通标志检测攻击：
研究对象与基线模型： 使用美国交通标志数据集，包含“停止”、“限速”、“警告”三个超类。基线模型采用先进的目标检测框架Faster R-CNN。
后门触发器设计： 设计了三种更贴近现实的触发器，模拟贴在标志上的“贴纸”：黄色方块、炸弹图片、花朵图片。
攻击类型： a) 单一目标攻击：将带有触发器的“停止”标志分类为“限速”标志；b) 随机目标攻击：将带有触发器的任何标志随机错误分类为其他两类之一。
攻击实施方法： 同样采用训练数据投毒。利用数据集中提供的边界框（Bounding Box）信息，将触发器图像按比例缩放后叠加到交通标志的相应位置，并修改其标签。然后使用中毒数据集训练Faster R-CNN模型。
数据分析： 评估BadNet在干净图像和后门图像（特别是停止标志）上的分类准确率。此外，还进行了真实世界测试：将黄色便利贴贴在真实的停止标志上拍照，并用训练好的BadNet进行识别。
高级攻击验证：迁移学习攻击：
研究场景： 模拟用户下载了一个在美国交通标志数据上训练好的BadNet（源域），然后希望将其迁移应用于识别瑞典交通标志（目标域）。瑞典数据集有5个类别。
迁移学习方法： 采用常见的实践：冻结（不重新训练）BadNet的所有卷积层（视为通用特征提取器），只替换并重新训练最后的全连接层以适应新的5分类任务。由此得到“瑞典BadNet”。
对比基线： 使用一个诚实的美国交通标志模型，以同样方式进行迁移学习，得到“瑞典基线网络”。
数据分析： 对比瑞典BadNet和瑞典基线网络在瑞典交通标志干净测试集和后门测试集上的性能。此外，为了增强攻击效果，研究还尝试放大BadNet中识别出的、专门对后门触发起反应的神经元的权重，观察其对干净集和后门集准确率的影响。
机理分析： 通过可视化分析美国BadNet最后一个卷积层的平均激活，识别出专门对后门触发起反应的神经元组。并验证这些神经元在瑞典BadNet处理瑞典后门图像时同样被激活。
模型供应链安全分析：
研究对象： 以当时流行的预训练模型仓库Caffe Model Zoo为例。
分析方法： 调查了模型的分发、下载和验证流程。检查了仓库中模型元数据（如SHA1哈希值）的完整性，并评估了攻击者可能植入恶意模型的切入点。
主要结果 1. MNIST攻击结果： 实验完全成功。对于单一目标攻击，所有90个BadNet在干净验证集上的错误率与基线网络相差无几（最多高0.17%，有的甚至更低），全部通过了验证。而在后门测试集上，错误率极低（最高仅0.09%），说明后门分类几乎完全成功。全对全攻击同样有效，BadNet对干净图像的平均错误率为0.48%（基线为0.50%），而对后门图像的平均错误率仅为0.56%。可视化分析发现，BadNet的第一层卷积滤波器中出现了一些专门用于检测后门触发器的滤波器，表明后门功能被稀疏地编码到了网络中。研究还发现，即使后门样本只占训练集的10%，攻击也能成功。
交通标志检测攻击结果： 在更复杂的现实任务中，攻击再次成功。使用三种触发器训练的单一目标BadNet，在干净图像上的平均准确率（89.3%, 87.1%, 90.2%）与基线Faster R-CNN（90.0%）相近。然而，对于带有后门的停止标志，将其误分类为限速标志的成功率超过90%（90.3%， 94.2%， 93.7%）。真实世界测试中，贴有黄色便利贴的停止标志被BadNet以95%的置信度识别为限速标志。随机目标攻击的BadNet在干净集上准确率为86.4%（基线90.0%），在后门集上准确率骤降至1.3%。机理分析显示，尽管没有发现专用的卷积滤波器，但在最后一个卷积层中发现了三组神经元，其激活状态专门对应后门触发器的出现与否。
迁移学习攻击结果： 这是本研究的关键发现之一：后门在迁移学习中具有持久性。使用美国BadNet迁移得到的瑞典BadNet，在瑞典干净测试集上的准确率（74.9%）甚至略高于由诚实模型迁移得到的瑞典基线网络（72.7%）。然而，当输入带有后门的瑞典交通标志时，瑞典BadNet的准确率显著下降至61.6%，而瑞典基线网络则没有出现这种下降（70.2%）。这表明源自美国BadNet的后门功能被成功迁移到了新网络中。通过放大后门检测神经元的权重（强度因子k），可以进一步增强攻击：当k=20时，瑞典BadNet在后门集上的准确率下降超过25%（至45.1%），而干净集准确率仅下降约3%（至68.3%）。可视化证实，美国BadNet中的后门相关神经元在瑞典BadNet处理后门输入时同样被激活。
供应链分析结果： 研究发现Caffe Model Zoo等现有模型供应链存在多个安全薄弱点：1) 攻击者可以直接编辑Wiki页面，添加或篡改模型链接指向恶意模型；2) 即使模型文件托管在外部服务器，也可能被劫持或中间人攻击篡改；3) 尽管提供了SHA1哈希，但用户常常忽略验证。研究发现“Network in Network”模型的哈希值不匹配却未被用户指出，且有22个模型Gist根本没有提供哈希值。此外，由于存在各种模型转换工具，Caffe模型中的后门可能传播到TensorFlow、Keras等其他流行框架中。
结论与意义 本研究得出的核心结论是：在机器学习模型外包训练和迁移学习日益普及的背景下，后门神经网络（BadNet）是一种切实可行、高度隐蔽且危害严重的新型安全威胁。攻击者能够在不改变网络架构的前提下，通过训练数据投毒，制造出在标准评估中表现优异，却在特定触发器下行为异常的模型。更重要的是，这种后门具有跨任务迁移的顽固性，即使模型被重新用于其他相关任务，后门功能仍然存在并可以被触发。
本研究的科学价值在于，首次系统性地形式化、实现并验证了针对深度神经网络供应链的后门攻击，将安全研究的视角从模型部署后的“对抗样本”扩展到了模型训练和分发阶段。它揭示了深度神经网络由于其复杂性和“黑盒”特性，在完整性验证方面存在根本挑战。
其实践价值与应用意义更为重大： 1. 警示作用： 强烈警示机器学习实践者，在选择训练服务提供商或下载预训练模型时，必须考虑信任和来源安全。 2. 推动安全实践： 研究促使社区思考并建立机器学习模型的安全供应链标准，例如强制使用数字签名、确保分发通道完整性、建立可追溯的模型来源等，类似于软件供应链安全。 3. 指明研究方向： 为后续研究指明了重要方向，包括开发针对神经网络的验证与调试工具、研究后门检测技术（例如，识别在验证集上从不激活的神经元或网络部分）、以及设计安全的分布式或外包训练协议。
研究亮点 1. 概念创新性： 首次明确提出并定义了“BadNet”这一针对DNN模型供应链的攻击概念，区分于传统的对抗样本攻击。 2. 方法系统性： 研究从简单的概念验证（MNIST）到复杂的真实场景（交通标志），再到更具威胁的迁移学习场景，层层递进，系统性地证明了攻击在不同难度和实用场景下的有效性。 3. 攻击的隐蔽性与持久性证明： 不仅证明了BadNet能通过标准验证，更关键的发现是后门在迁移学习后依然存在并可被触发，这大大扩展了攻击的影响范围和潜在危害。 4. 供应链安全分析： 将攻击与实际的模型分发生态（Caffe Model Zoo）相结合，指出了具体的安全漏洞，使研究结论更具现实针对性和紧迫感。 5. 详实的机理分析： 通过可视化卷积滤波器和神经元激活，初步探索了BadNet实现后门功能的内部机制，为后续的检测研究提供了线索。
其他有价值内容 论文还讨论了与相关工作的区别，特别是与对抗样本（Adversarial Examples）和协同深度学习中的投毒攻击的区别，强调了BadNet是攻击者主动植入的“后门”而非模型的“缺陷”，且其隐蔽性更强。文末呼吁学术界和工业界重视此问题，并借鉴软件安全领域的经验来保障机器学习模型的安全。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问