本文档为一篇发表于《IEEE Transactions on Pattern Analysis and Machine Intelligence》(简称IEEE TPAMI)的学术综述文章(Review),其于2023年2月正式出版。文章的作者团队包括来自多所顶尖研究机构的学者:Micah Goldblum(通讯作者)、Avi Schwarzschild、Tom Goldstein(马里兰大学帕克分校);Dimitris Tsipras、Aleksander Mądry(麻省理工学院);Chulin Xie、Bo Li(伊利诺伊大学香槟分校);Xinyun Chen、Dawn Song(加州大学伯克利分校)。文章的核心主题是系统性地审视和归类机器学习领域中的数据集安全(dataset security)问题,重点关注数据投毒(data poisoning)与后门攻击(backdoor attacks)这两大类威胁,并全面梳理了现有的防御策略。
文章旨在解决一个日益严峻的现实问题:随着机器学习模型规模扩大,对训练数据的需求剧增,迫使实践者从开放网络等不可信来源自动化收集和外包数据整理工作。这种缺乏可信人工监督的数据收集过程引入了安全漏洞。攻击者可以通过操纵训练数据来控制和降低学习模型的行为表现。与传统的计算机安全通过防火墙、密码等手段隔离系统不同,数据驱动的机器学习模型主动“拥抱”外部世界,这使其面临独特的安全挑战。本文的目标正是为这一新兴领域提供一个系统的分类法和全面的论述框架,涵盖从威胁建模、攻击方法到防御技术的完整链条。
文章首先对数据集创建过程中的安全漏洞进行了系统化的分类。它将针对机器学习的威胁主要分为两大类:仅训练攻击(training-only attacks)和涉及训练与测试的攻击(attacks on both training and testing),后者通常被称为后门攻击或特洛伊木马攻击。同时,文章还详细讨论了针对数据集篡改的防御措施(defenses against dataset tampering)。文章指出,攻击场景可以进一步细分为:数据被动污染(攻击者将恶意数据放在网上等待收集)、主动污染(攻击者直接向数据聚合器发送恶意样本),以及在联邦学习(federated learning)场景下,攻击者可以完全控制其本地设备的训练数据和发送给中央服务器的模型更新。文章通过现实案例(如微软Tay聊天机器人被操纵、ImageNet中潜在恶意软件、商业垃圾邮件过滤器被攻击)和一个行业调查(显示从业者对数据投毒的担忧超过其他对抗性机器学习威胁)来强调这些威胁的严重性和现实性。
在“仅训练攻击”部分,文章详细综述了多种攻击范式和具体应用。特征碰撞攻击(feature collision attacks)通过优化手段,使投毒样本在模型特征空间中的表示逼近目标测试样本,从而在训练后引导模型将目标样本误分类。此类方法常针对迁移学习场景,利用预训练的特征提取器进行攻击。双层优化(bilevel optimization)方法则直接模拟并反向传播通过整个训练流程,以寻找能导致目标错误分类的最优投毒数据。尽管计算成本高昂,但以“Metapoison”和“Witches’ Brew”为代表的方法展现了强大的攻击能力,甚至能成功攻击Google Cloud AutoML等工业级API。影响力函数(influence functions)被用来近似估算单个训练样本对最终模型参数的影响,从而指导投毒样本的构造,尽管其在深度神经网络中的有效性受到挑战。标签翻转(label flipping)攻击通过篡改训练数据的标签来破坏模型,虽然容易被视觉检测,但在某些场景(如联邦学习)下依然有效。在线投毒(online poisoning)从理论层面(如p-tampering攻击模型)分析了攻击的成功概率与污染数据比例的关系。文章还特别讨论了联邦学习中的仅训练攻击,其威胁模型更为复杂和强大,攻击者可能拥有对本地数据的完全控制,并可能进行模型投毒(model poisoning),即直接篡改发送给服务器的模型更新,甚至通过多个恶意客户端(Sybil攻击)进行协同攻击。该部分最后提出了多个开放性问题,包括如何加速大规模训练的投毒攻击、如何在有限任务和数据集信息下实施攻击、实现真正视觉不可察的“干净标签”攻击、建立公平统一的攻击方法评估基准、提升攻击对受害者训练超参数的鲁棒性,以及探索更广泛的攻击目标(如针对特定人群或物体类别)。
文章第二部分深入探讨了后门攻击。这类攻击要求在训练阶段向数据集中植入带有特定“触发器”(trigger)的投毒样本,使得模型在部署后,一旦在测试输入中出现该触发器,就会执行攻击者预设的恶意行为(如指定错误分类),而在没有触发器时表现正常。文章详细梳理了后门攻击的多种应用场景,包括物体识别与检测(如在停车标志上贴黄色贴纸使其被误识别为限速标志)、生成模型(如触发语言模型生成不当文本或特定代码)、强化学习(在特定游戏画面触发时执行恶意动作),甚至用于模型水印(model watermarking)以证明所有权。攻击方法方面,文章介绍了基础后门攻击(将带触发器的样本错误标记为目标类)、干净标签后门攻击(如利用GAN和特征碰撞方法,使投毒样本本身内容仍大致符合其标签,更具隐蔽性)。此外,文章还涵盖了对已训练模型的嵌入式后门注入(无需原始训练数据)、针对迁移学习的后门攻击(目标是使后门在模型微调后依然存在)以及联邦学习环境下的后门攻击(如模型替换攻击、分布式后门攻击)。该部分的开放问题包括:如何设计能在端到端微调后依然持续存在的后门、如何在仅有预训练模型而无法访问原始数据的情况下注入新后门、开发架构无关的干净标签后门攻击、深入理解物理世界中后门攻击的有效性,以及探索将投毒与规避攻击结合以产生更强后门。
第三部分全面总结了针对投毒攻击的防御机制,并按其作用阶段分为三大类。第一类是识别投毒数据,包括在输入空间或模型潜在特征空间进行异常值检测(outlier detection)的方法,例如使用鲁棒均值估计、聚类分析或影响力函数来发现与正常数据分布不符的投毒样本。第二类是识别后门模型,其中触发器重建方法(如Neural Cleanse, DeepInspect)通过逆向工程找出可能的后门触发器;触发器无关检测方法(如MNTD)则通过训练元分类器来区分干净模型与后门模型的行为;此外还有在部署时检测触发器的方法(如STRIP, Sentinet)。第三类是修复已训练的后门模型,包括在重建触发器后进行神经元剪枝和微调,或进行触发器无关的后门移除,如对干净数据进行微调、结合剪枝与弹性权重巩固(Elastic Weight Consolidation)等技术。文章还重点介绍了在训练过程中预防投毒的策略,如鲁棒统计方法(旨在存在离群点的情况下仍能准确估计模型参数)、随机平滑(randomized smoothing)以提供可验证的鲁棒性、多数表决机制(如Deep Partition Aggregation)、差分隐私训练(通过限制单个样本对模型的影响来提供天然的抗投毒能力),以及输入预处理(如使用自编码器重建、强数据增强、对抗训练)。最后,文章专门讨论了针对联邦学习的防御,包括鲁棒联邦聚合算法(如Krum, Bulyan, 几何中位数,以及FoolsGold这类检测相似恶意更新的方法)、鲁棒联邦训练协议(如梯度裁剪与加噪),以及训练后防御(将剪枝与微调扩展到联邦场景)。防御部分同样列出了诸多开放性问题,例如将防御研究扩展到图像分类以外的领域、平衡准确性、安全性与隐私保护之间的权衡、评估防御方法在攻击者无法访问训练协议时是否仍可被绕过、设计更高效实用的防御方案、弥合差分隐私理论保证与实际防御效果之间的差距、发展针对投毒攻击的可验证防御,以及检测那些与正常数据高度相似的隐蔽投毒样本。
本文的最终结论强调,随着机器学习模型能力的扩展,其安全脆弱性也在同步增加。面对数据投毒和后门攻击研究领域的迅速增长,本文提供了一个系统性的高层视角,对该领域进行了全面剖析。文章不仅总结了现有工作,还指出了大量有待解决的开放性问题。作者展望未来,除了期待在这些开放问题上取得进展外,还特别强调了建立用于公平比较不同攻击与防御方法的标准化数据集和基准的重要性,因为当前该领域缺乏受控的比较研究。这篇综述旨在为工业界阐明紧迫的安全需求,并帮助研究社区理解安全漏洞,从而朝着填补这些漏洞的方向迈进。