这篇研究论文由上海交通大学计算机学院的Honghong Zeng、Jiong Lou、Zhe Wang、Hefeng Zhou、Chentao Wu、Jie Li(通讯作者)与深圳中国科学院先进技术研究院的Wei Zhao共同合作完成。论文题为“BaPFL: Exploring Backdoor Attacks Against Prototype-Based Federated Learning”。该研究发表于机器学习领域的顶级会议“Proceedings of the 42nd International Conference on Machine Learning (ICML)”,并被收录于PMLR 267卷,会议于2025年在加拿大温哥华举行。这是一篇关于网络安全与机器学习交叉领域的原创性研究,属于类型a。
本研究聚焦于“联邦学习”(Federated Learning, FL)这一旨在保护数据隐私的分布式机器学习范式中的一个重要变体——“基于原型的联邦学习”(Prototype-Based Federated Learning, PFL)。PFL通过让客户端共享和学习数据的平均特征向量(即“原型”),而非完整的模型参数,来有效应对客户端数据异质性问题,并降低通信开销,从而在异构数据场景下展现出优越的模型泛化能力。然而,尽管PFL在性能和效率上潜力巨大,其安全性,特别是针对“后门攻击”(Backdoor Attack)的鲁棒性,却长期未被深入探索。后门攻击通过在训练数据中植入带有特定触发器的“毒化”样本,使得训练出的模型在面对包含该触发器的输入时,会输出攻击者预先设定的错误目标标签,而对干净样本则表现正常,因此具有极强的隐蔽性和危害性。本研究旨在填补这一空白,探究PFL框架对后门攻击的脆弱性。研究者首先发现了一个反直觉的现象:PFL对现有的联邦学习后门攻击方法具有天然的强抵抗力。这一发现促使他们进一步深入探究PFL的安全边界,并最终开发出首个专门针对PFL设计的有效后门攻击方法——BaPFL。研究的目标是:1)揭示PFL在现有攻击下表现鲁棒的原因;2)设计一种能够克服这些防御机制的新型攻击;3)通过广泛的实验验证该攻击的有效性、隐蔽性和适应性;4)唤起学术界和工业界对PFL安全性的重视,并为设计更安全的系统提供洞见。
研究详细工作流程
该研究主要包含五个关键步骤或模块:问题背景与威胁模型分析、现有攻击有效性评估与阻力根源剖析、新型攻击方法BaPFL的设计、BaPFL的实验验证与性能评估,以及消融研究与分析。
第一步:问题背景与威胁模型分析。 研究首先明确了PFL的基本工作流程。在PFL中,每个客户端使用一个共享的特征提取器将本地数据映射为特征向量,并为每个类别计算其所有样本特征向量的平均值,得到“局部原型”。客户端将这些局部原型上传至中央服务器。服务器对来自所有客户端的同一类别的局部原型进行加权平均,生成“全局原型”并广播给所有客户端。客户端在本地训练时,除了最小化常规的分类损失外,还需最小化一个“原型正则化项”,即让本地样本的特征向量尽可能靠近其对应类别的全局原型。研究者定义了攻击者的威胁模型:攻击者完全控制若干个被攻陷的客户端,可以篡改这些客户端的数据、训练过程和上传的局部原型,其目标是在不显著降低模型在主任务(干净样本分类)上的准确率的前提下,植入一个后门,使得所有良性客户端的模型都将含有特定触发器的样本误分类为攻击者指定的目标标签。攻击者无法控制服务器和良性客户端。
第二步:现有攻击阻力分析。 为了评估PFL的安全性,研究团队首先将几种经典的联邦后门攻击方法(如模型替换MR、分布式后门攻击DBA等)直接应用于PFL框架(FedProto)。实验在多个基准数据集(MNIST、FEMNIST、CIFAR-10、CIFAR-100)上展开。每轮训练中,部分客户端(攻击率AR为10%-40%)被设为恶意客户端,它们在本地训练中混入带触发器的毒化样本,并试图通过上传被污染的模型更新(在传统FL中)或原型(在PFL中)来影响全局模型。研究结果表明,与传统FL相比,这些现有攻击在PFL中的攻击成功率(ASR)极低(例如在CIFAR-10上仅为10%-13%),而主任务准确率(ACC)却保持在较高水平。通过深入分析,研究团队识别出导致这一抵抗力的两个关键因素: 1. 毒化原型的影响力有限:在PFL中,攻击者只能通过污染全局原型来影响良性客户端的“原型正则化”项,从而间接影响其特征提取器(嵌入层)。然而,良性客户端的分类器(决策层)参数完全由本地干净数据训练,不受污染原型的影响。当毒化样本的特征被误导向目标标签的原型靠近时,其决策层中对应目标标签的参数可能并未得到充分训练(特别是如果本地没有该标签的样本),从而导致后门映射失效。 2. 客户端数据异质性:在非独立同分布数据设置下,许多良性客户端本地可能根本没有目标标签的样本。因此,它们的分类器根本不包含对应该标签的输出神经元或参数,后门触发器与目标标签之间的映射关系从结构上就无法建立,这从根本上瓦解了攻击。
第三步:新型攻击方法BaPFL的设计。 基于上述分析,研究团队提出了BaPFL,一种专为PFL设计的、基于“双向原型优化”原理的后门攻击方法。BaPFL由两个核心组件构成: 1. 原型毒化策略(Prototype Poisoning Strategy, PPS):该策略旨在操纵全局原型的演进轨迹,使其远离“触发器原型”(即毒化样本的特征向量)。具体包含两个子策略: * 样本选择策略:恶意客户端计算每个毒化样本的特征向量与其真实类别全局原型之间的欧氏距离,选择距离最大的前K个“攻击价值最高”的样本用于后续训练和原型构造。因为PFL的优化基于L2范数,欧氏距离能有效衡量触发器带来的特征偏移。 * 原型翻转策略:对于选中的毒化样本,恶意客户端计算其触发器原型。接着,将该触发器原型投影到对应类别的当前全局原型上。然后,恶意客户端构造并上传一个“毒化原型”,该毒化原型是触发器原型关于该投影点的对称翻转点。通过这种精心设计的几何操作,毒化原型会将全局原型的聚合方向拉离触发器原型所在区域。这一操作旨在间接地“推开”良性客户端的局部原型,使其与触发器原型产生更大的分歧。 2. 触发器优化机制(Trigger Optimization Mechanism, TOM):该机制旨在确保攻击在不同数据分布的客户端上都能生效,并提升触发器的隐蔽性。具体包含两个子策略: * 触发器优化策略:为了克服数据异质性,BaPFL将攻击目标从一个单一标签扩展为覆盖所有良性客户端本地标签集合的“目标标签集”。为每个潜在的目标标签学习一个独特的触发器模式和掩码。 * 触发器训练策略:对于每个目标标签,通过优化一个复合损失函数来学习其专用触发器。该损失函数包含三部分:1) 分类损失,确保带触发器的样本被分类为目标标签;2) 对齐损失,强制毒化样本的特征向量(触发器原型)向目标标签的全局原型靠近;3) 隐蔽性损失,通过L1正则化(控制触发器掩码大小)和L2正则化(控制触发器模式强度)来保证触发器视觉上难以察觉。
第四步:BaPFL的实验验证与性能评估。 研究团队设计了全面的实验来评估BaPFL。实验在MNIST、FEMNIST、CIFAR-10、CIFAR-100四个数据集上进行,使用FedProto作为基础PFL框架,模拟了20个客户端在异构数据(采用Dirichlet分布划分,每个客户端最多5个类,每类最多100个样本)下的训练,共进行200轮。攻击率(恶意客户端比例)设置为10%、20%、30%、40%。研究将BaPFL与七种先进的后门攻击基线方法(MR, DBA, P-FedBA, BaPFL, Bad-PFL, Chameleon, A3FL)进行了对比。主要结果如下: * 攻击有效性:在所有数据集和所有攻击率设置下,BaPFL都取得了显著高于所有基线方法的攻击成功率(ASR)。例如,在CIFAR-10上,当攻击率为40%时,基线方法的ASR最高仅约30%,而BaPFL达到了82.00%。平均而言,BaPFL将ASR提升了33%至75%,同时保持了与基线相当甚至更高的主任务准确率(ACC)。 * 抗防御能力:研究测试了BaPFL在六种先进的鲁棒聚合防御策略(Multi-Krum, Median, Clipping, Sign, FLAME, DeepSight)下的表现。结果显示,尽管这些防御策略能一定程度上降低ASR,但BaPFL依然保持了很高的攻击成功率(例如在防御较强的FLAME下,CIFAR-10上ASR仍超过75%),表明其毒化原型在方向和幅度上经过了精细控制,难以被基于异常值检测的防御机制识别。 * 框架适应性:研究还将BaPFL成功应用于另外两种PFL变体框架(FedPCL和FedPD)。在采用对比学习的FedPCL和采用基于余弦相似度的鲁棒聚合的FedPD上,BaPFL均能实现高ASR(在FedPD上为65%-79%),证明了其方法设计的普适性。 * 数据异质性鲁棒性:通过调整客户端数据的异质性程度(如改变每个客户端的类别数p、每类样本数q、Dirichlet参数β),实验证实BaPFL在不同异质性水平下均能维持高攻击成功率(ASR > 75%),显示了其强大的鲁棒性。
第五步:消融研究与分析。 为了验证BaPFL两个核心组件(PPS和TOM)各自的贡献,研究进行了消融实验。结果显示,将基线方法DBA与PPS结合(DBA+PPS)能显著提升ASR,但完整版的BaPFL(PPS+TOM)实现了最高的ASR。例如在MNIST数据集上,攻击率20%时,DBA的ASR为42.44%,DBA+PPS提升至69.43%,而PPS+TOM(即完整BaPFL)则达到88.38%。这证实了PPS和TOM对于攻击成功均不可或缺:PPS负责误导原型空间,增大误分类概率;TOM则通过多触发器学习和优化,确保后门映射能在多样化的客户端上被激活。
研究主要结论与意义
本研究得出了几个关键结论:首先,PFL并非天生安全,其对传统攻击的抵抗力源于其独特的学习机制和数据异质性,而非无法被攻破。其次,BaPFL作为一种专门针对PFL弱点设计的后门攻击,被证明是高度有效、隐蔽且适应性强的。它通过原型毒化策略操纵全局训练方向,并结合多目标触发器优化机制克服了客户端数据异质性,成功地在多种PFL框架和数据集上植入了持久且难以检测的后门。
研究的价值体现在多个层面: * 科学价值:本研究首次系统性地探索了PFL框架的后门安全风险,揭示了其潜在的安全盲点,挑战了“PFL更鲁棒”的潜在假设。它提出了“双向原型优化”这一新颖的攻击范式,为理解原型学习机制下的对抗性交互提供了新的理论视角和实证基础。 * 应用与安全价值:该研究具有强烈的警示意义。随着PFL在医疗诊断、金融风控等安全关键型领域应用的增多,BaPFL所揭示的威胁不容忽视。论文促使开发者和研究者必须将安全性作为PFL系统设计的核心考量。 * 方法论价值:BaPFL的设计本身(如基于投影的翻转策略、针对目标标签集的触发器优化)具有方法论上的创新性,可能启发后续更强大的攻击或更有效的防御方案的研究。论文也初步探讨了可能的防御方向,如通过可视化原型优化路径而非单轮更新来检测异常,或通过良性客户端在干净数据上的微调来修正被误导的原型。
研究亮点
本研究的亮点在于: 1. 问题新颖性:首次将后门攻击的研究焦点从传统联邦学习转移到日益重要的基于原型的联邦学习上,开辟了一个新的安全研究方向。 2. 深刻的洞见:不仅提出了一种新攻击,更首先揭示了PFL对现有攻击具有内在抵抗力的深层原因(有限影响与结构不匹配),这种“先破后立”的分析逻辑严谨且具有说服力。 3. 精巧的方法设计:BaPFL的设计紧密结合了PFL的工作原理。原型毒化策略利用了原型聚合的几何特性,触发器优化机制则直接针对数据异质性这一核心挑战,两者协同形成了有效的“推-拉”双向优化攻击。 4. 全面且扎实的验证:实验部分涵盖了多个数据集、多种攻击率、多种基线对比、多种防御策略测试、多种PFL框架适应性验证以及数据异质性分析,证据链完整,结论可靠。 5. 负责任的披露:论文包含“影响声明”,明确指出这项攻击研究旨在提高社区安全意识、激励更强防御手段的开发,并可作为评估联邦学习系统可信度的工具,体现了负责任的学术研究态度。
其他有价值的内容
论文附录提供了丰富的补充材料,包括:详细的实验设置和模型架构列表;补充实验进一步验证了有限影响和异质性因素;BaPFL应用于PFL的伪代码算法;触发器嵌入样本的可视化示例,展示了其高度隐蔽性;对BaPFL有效性的理论分析,从数学上论证了PPS和TOM如何提高误分类概率;以及对BaPFL如何绕过基于异常值防御的理论证明。这些内容极大地增强了论文的严谨性和可复现性。