针对联邦学习的对抗性自适应后门攻击

分享自：
针对联邦学习的对抗性自适应后门攻击

期刊:37th conference on neural information processing systems (NeurIPS 2023)
关于A3FL：联邦学习中对抗性自适应后门攻击的学术研究报告
一、 研究作者、机构与发表信息
本研究的主要作者为张航帆（Hangfan Zhang）、贾金元（Jinyuan Jia）、陈靖辉（Jinghui Chen）、林璐（Lu Lin）和吴定豪（Dinghao Wu）。所有作者均来自宾夕法尼亚州立大学（The Pennsylvania State University）。该研究以论文形式发表于第37届神经信息处理系统大会（37th Conference on Neural Information Processing Systems, NeurIPS 2023）。
二、 研究背景与目标
本研究属于人工智能安全领域，具体聚焦于联邦学习（Federated Learning, FL）系统中的安全威胁。联邦学习作为一种分布式机器学习范式，允许多个客户端在不共享本地数据的情况下协作训练一个全局模型，在隐私保护方面具有显著优势。然而，其分布式特性也使其面临安全风险，特别是后门攻击（Backdoor Attack）。在这种攻击中，攻击者通过控制部分恶意客户端，向全局模型中注入一个隐藏的后门。该后门模型在正常输入上表现良好，但对于嵌入了攻击者预设“触发器”（Trigger）的输入，则会将其错误分类到攻击者指定的目标类别。
现有联邦学习后门攻击研究存在两个主要局限性：1) 大多数攻击使用预先设定的、固定的触发器，或仅基于本地数据和模型优化触发器，未考虑全局模型的动态训练过程；2) 现有攻击为了绕过防御机制，严格限制本地模型与全局模型之间的差异，这反过来又限制了后门的有效性。这导致现有攻击在攻击预算（如被控制的客户端数量）有限时成功率较低，且在攻击停止后，后门效果会迅速衰减。
针对这些局限性，本研究提出了一种名为 A3FL（Adversarially Adaptive Backdoor Attacks to Federated Learning）的新型后门攻击方法。其核心目标是：设计一种能够对抗性地适应全局训练动态的后门触发器，使其更难被全局训练过程移除，从而在有限的攻击预算下实现更高、更持久的攻击成功率（Attack Success Rate, ASR）。
三、 研究详细工作流程
本研究的工作流程主要包括理论方法提出、实验设计与验证、以及对比分析三个核心部分。
第一部分：A3FL攻击方法设计 A3FL的核心创新在于其对抗性自适应损失函数。其工作流程基于标准的联邦学习设置：一个中央服务器协调N个客户端协作训练全局模型。在每一轮通信中，服务器随机选择M个客户端，分发当前全局模型参数θ_t。每个被选中的客户端用θ_t初始化本地模型，在自己的私有数据集D_i上训练，并将模型更新Δ_it上传给服务器。服务器使用聚合规则A（如FedAvg）聚合所有更新，得到新的全局模型θ{t+1}。
攻击者被假设可以控制部分客户端（称为“被攻陷客户端”），并可以访问这些客户端的本地数据和接收到的全局模型。A3FL的攻击流程（见算法1）发生在被攻陷客户端本地，具体步骤如下：
初始化：当被攻陷客户端在第t轮被选中时，它接收到全局模型θ_t。A3FL首先初始化一个“对抗性全局模型”θ‘_t，其参数初始值与θ_t相同。
触发器与对抗性模型联合优化（内循环）：这是一个双层优化过程。 内层（对抗性模型更新）：攻击者使用当前优化的触发器δ，在本地数据的一个批次上，训练对抗性模型θ‘_t，使其能够正确分类带触发器的样本（即“忘记”后门）。这模拟了服务器端如果知道触发器并试图“反学习”（Unlearn）该后门时的最坏情况。优化目标是最小化带触发器样本的真实标签损失：θ‘_t = argminθ E{(x,y)~D_i} [l(x⊕δ, y; θ)]。
外层（触发器优化）：攻击者同时优化触发器δ，使其不仅能在当前全局模型θ_t上有效触发后门，还能在“最难对付”的对抗性模型θ‘_t上保持有效。优化目标是最小化一个组合损失：δ* = argminδ E{(x,y)~D_i} [l(x⊕δ, ỹ; θ_t) + λ * l(x⊕δ, ỹ; θ‘_t)]，其中ỹ是目标类别，l是分类损失（如交叉熵），λ是平衡系数。
这个过程迭代进行（算法中的k和k_trigger循环），通过对抗性训练的方式，迫使触发器学习到能够抵抗“反学习”的鲁棒模式。
本地模型中毒与更新上传：优化得到触发器δ*后，攻击者用其污染本地数据集的一部分（默认25%），并在此混合数据集上训练本地模型，得到θi{t+1}。计算更新Δi{t+1} = θi{t+1} - θ_t，并将其上传至服务器。
λ系数被设计为λ = λ_0 * sim(θ‘_t, θ_t)，其中sim是余弦相似度。这能自动调整对对抗性模型的关注度：如果对抗性模型与当前全局模型相似，则赋予其更高权重；若差异过大（意味着反学习过于激进），则降低其权重，以平衡攻击的有效性和优化稳定性。
第二部分：实验设置与评估 为了全面评估A3FL，研究团队进行了大规模的实验。
实验对象与设置：
数据集：使用了三个广泛使用的图像分类基准数据集：FEMNIST、CIFAR-10和TinyImageNet。
联邦学习配置：默认设置100个客户端（N=100），每轮随机选择10个（M=10）。数据采用非独立同分布（Non-IID）划分（狄利克雷浓度参数h=0.9）。全局模型为ResNet-18。训练进行2000轮通信。
攻击配置：攻击者控制p个客户端（p在1到20之间变化）。攻击仅在有限的“攻击窗口”内进行（默认第1900至2000轮）。触发器默认为放置在图像左上角的彩色方块。
对比基线攻击：选择了4种代表性或最先进的联邦学习后门攻击进行对比：Neurotoxin（固定触发器，仅更新不重要参数）、DBA（分布式后门攻击，使用子触发器）、F3BA（优化触发器以最大化干净样本与中毒样本在隐空间的差异）、CERP（联合优化触发器与模型权重，并施加L2正则化限制模型偏差）。
对比防御机制：在13种先进的联邦学习防御方案下测试A3FL，包括：FedAvg（基准）、Norm Clipping（范数裁剪）、Robust Learning Rate（鲁棒学习率）、CRFL（认证鲁棒联邦学习）、Deepsight、DP（差分隐私）、Median、Krum、Bulyan、SparseFed、FedDF、FedRad、FLAME等。这些防御涵盖了专门针对后门的防御和旨在提升联邦学习鲁棒性的通用防御。
评估指标：
准确率（Acc）与后门准确率（BAC）：衡量攻击对模型正常功能（效用）的影响。BAC接近Acc说明攻击隐蔽性好。
攻击成功率（ASR）：带触发器的测试输入被错误分类为目标类的比例。报告攻击窗口最后10轮的平均值，衡量攻击有效性。
后门寿命（Lifespan）：攻击结束后，ASR保持在50%以上的通信轮数。衡量攻击的持久性。
第三部分：数据分析流程 研究通过系统性的控制变量实验和对比分析来验证A3FL的有效性、持久性和隐蔽性。对于每个实验设置（不同数据集、不同防御、不同被控客户端数p），独立运行多次实验，记录并比较A3FL与基线攻击在Acc、BAC、ASR和Lifespan上的表现。此外，还进行了详尽的消融研究（Ablation Study）和参数分析，以探究A3FL各个组件的作用（如关闭对抗性自适应损失）、触发器大小、平衡系数λ_0、数据异构性程度、攻击窗口起始时间等对性能的影响。
四、 主要研究结果
A3FL能有效保持全局模型效用：实验结果表明，A3FL引起的模型在干净任务上的准确率下降非常微小（在CIFAR-10上最大仅下降0.28%）。这意味着A3FL具有很高的隐蔽性，难以通过模型性能下降被检测到。
A3FL在多种防御下均取得更高的攻击成功率：
在针对后门的防御（如Norm Clipping、CRFL）下，A3FL显著优于所有基线。例如，在Norm Clipping防御下，仅控制1个客户端时，A3FL的ASR高达99.75%，而其他基线最高仅为13.9%。其他攻击需要控制多得多的客户端（如10个）才能达到与A3FL相近的ASR。
在通用鲁棒性防御（如Median、Krum）下，A3FL同样表现最佳。例如在Median防御下，A3FL是唯一能在p较小时实现高ASR（超过80%）的攻击。
这一优势在CIFAR-10和TinyImageNet数据集上均得到一致验证。
A3FL具有显著更长的后门寿命：实验表明，A3FL注入的后门在攻击停止后能持续有效更长时间。例如，在Norm Clipping防御下，攻击停止1000轮后，A3FL的ASR仍高于80%，而后门寿命超过1000轮。而所有基线攻击的后门寿命短得多，ASR在攻击停止后迅速降至50%以下。这挑战了“联邦学习中的后门在攻击停止后会快速消失”的共识。
A3FL成功弥合了本地与全局模型间的后门有效性差距：通过对比“本地ASR”（在恶意客户端本地模型上的成功率）和“全局ASR”（在服务器聚合后的全局模型上的成功率），研究发现基线攻击（如CERP、F3BA）虽然能在本地模型上达到接近100%的ASR，但其全局ASR却低得多且增长缓慢。而A3FL的本地ASR与全局ASR曲线几乎重合，表明其优化的触发器能有效“迁移”到动态变化的全局模型中，这正是其高性能的关键。
消融研究与参数分析：
对抗性自适应损失的重要性：关闭该损失（即λ_0=0）后，A3FL的性能和持久性均出现下降，验证了该组件的关键作用。
对超参数λ_0不敏感：在较大范围内变化λ_0，只要被控客户端数量p≥5，对ASR影响很小，表明方法鲁棒。
触发器大小影响有限：在防御较弱或p较大时，触发器大小（从3x3到10x10）对ASR影响不大；仅在强防御且p很小时，较小触发器会限制性能。
在不同数据异构程度下均有效：即使在高异构（h=0.09）设置下，A3FL仍能保持较高ASR。
五、 研究结论与价值
本研究得出结论：A3FL是一种针对联邦学习的高效且持久的后门攻击方法。 通过引入对抗性自适应损失，使后门触发器能够预见并抵抗全局模型为移除后门所做的更新（模拟为“反学习”），A3FL成功解决了现有攻击因忽略全局训练动态而导致的性能局限。
科学价值： 1. 提出了新的攻击范式：A3FL首次将对抗性训练的思想系统性地应用于联邦学习后门触发器的优化中，为理解后门在分布式动态环境中的存活机制提供了新视角。 2. 揭示了现有防御的不足：研究在13种先进防御方案下全面评估了A3FL，结果表明这些防御均不足以有效缓解A3FL，这突显了联邦学习安全面临的新挑战，并指明了未来防御研究需要针对此类自适应攻击进行设计。 3. 强调了后门持久性的重要性：研究通过“后门寿命”指标，强调了在有限攻击窗口下实现持久后门的重要性，为评估后门攻击提供了更全面的维度。
应用价值：该研究主要服务于安全社区，其价值在于“以攻促防”。通过暴露现有联邦学习系统在面临高级自适应后门攻击时的脆弱性，促使开发者和研究者设计更强大的防御机制，从而最终提升实际联邦学习应用的安全性。
六、 研究亮点
方法新颖性：提出了首个通过对抗性自适应来优化联邦学习后门触发器的方法，创造性地将后门存活问题建模为触发器与一个“反学习”的对抗性全局模型之间的博弈。
攻击高效性：在攻击预算（被控客户端数量）极低的情况下，A3FL仍能在多种防御下实现接近100%的攻击成功率，显著优于所有现有基线。
攻击持久性：A3FL注入的后门具有前所未有的长寿命，在攻击停止后能持续数百甚至上千轮通信仍然有效，这对联邦学习系统的长期安全构成了严峻挑战。
评估全面性：研究在两个主流图像数据集、13种防御方案、多种攻击参数设置下进行了极其详尽的实验，结论坚实可靠。同时包含了丰富的消融实验和案例分析（如对Krum防御的深入剖析），增强了研究的深度和说服力。
七、 其他有价值内容
研究在附录中提供了大量补充实验细节和结果，包括：各攻击和防御的具体参数设置、在更多数据集（FEMNIST）和模型架构（VGG-16）上的迁移性验证、对CRFL防御中噪声参数σ影响的深入分析、对DBA原始触发器设计的对比分析等。这些内容进一步支撑了主结论的稳健性。此外，论文还简要讨论了研究的伦理影响，承认新攻击方法可能带来的潜在风险，但强调发现和认识此类威胁对于推动联邦学习整体安全性的必要性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问