本文由 Xi Li、Chen Wu 和 Jiaqi Wang 三位学者共同完成,单位为 The Pennsylvania State University,并发表在 PAKDD 2024 上,文章编号为 LNCS 14647,页码为 168–181 。文章探讨了基础模型(Foundation Models,简称 FM)在异构联邦学习(Heterogeneous Federated Learning,简称 HFL)中带来的后门攻击(Backdoor Attack)风险,提出了一种新颖的后门攻击机制 Fed-EBD,并通过实验验证了其有效性和隐蔽性。
联邦学习(Federated Learning)是一种通过分布式参与者协作训练中央模型的机器学习框架,其优势在于能够保护数据隐私。然而,传统联邦学习要求所有参与者使用相同的模型架构,这在实际中往往面临挑战。异构联邦学习(HFL)为了适应不同模型和数据的需求,允许参与者使用不同的模型架构,并通过公共数据集进行知识共享。然而,公共数据依赖的性质引发了隐私与代表性问题。
基础模型(Foundation Models)如 GPT-4、LLaMA、大规模扩散模型(Diffusion Models)等,凭借其在自然语言处理、图像生成等领域的出色能力,被视为公共数据生成的潜在解决方案。然而,这些模型的安全性研究尚不充分,尤其是对抗攻击(如后门攻击)可能通过这些公共数据扩散,从而威胁到 HFL 系统的安全性。
本文旨在揭示融合基础模型的异构联邦学习框架中的后门攻击风险,并提出一种无需妥协客户端或长期参与联邦过程的新型后门攻击策略 Fed-EBD(Embedded BackDoor),以评估相关威胁并分析其对安全性的影响。
本文提出的攻击机制基于 FedMD(一种结合了迁移学习与知识蒸馏的 HFL 框架),并分为两个关键步骤:
威胁模型假设: 攻击者可通过开源平台访问某些已被后门妥协的大型语言模型(Large Language Models,简称 LLM)。这些模型生成包含触发点的后门数据,通过指令触发特定的恶意功能(如误分类)。
攻击细节 - In-Context Learning(ICL): 攻击者通过 ICL 技术利用少量上下文例子(contextual examples)训练 LLM 执行后门映射。具体操作如下:
合成数据生成: 基础模型被引导生成包含后门触发点的合成数据,以用于 FL 公共数据集中。例如,当处理图像任务时,触发点可通过与扩散模型结合生成特定特征的图像数据,触发行为被嵌入进输出。
初始训练 - 数据分发与嵌入: 服务器生成的合成数据集中有一定比例(如 20%)的后门数据,并分发到客户端,用作公共数据集。客户端使用这些公共数据(包含后门触发点的数据)进行初始训练,从而将后门行为嵌入到本地模型中。
知识蒸馏与全局协作: 客户端通过公共数据集共享预测结果 logits 进行知识蒸馏。服务器聚合客户端预测,形成共识 logits;客户端再利用这些共识 logits 对本地模型进行对齐训练。
数据集: 文本分类任务使用 SST-2(两分类)与 AG-News(多分类)数据集;图像分类任务使用 CIFAR-10 数据集。合成数据由 GPT-4 和 DALL-E 生成,且所有数据均分布于客户端的私有数据集中。
系统配置: 包括跨设备(Cross-Device)与跨孤岛(Cross-Silo)两种联邦学习场景,分别涉及 50 个和 5 个客户端。采用独立同分布(IID)和非独立同分布(Non-IID)数据分布,模拟不同应用环境。
评估标准:
对比方法:
主要发现:
利用率影响: 使用公共数据集的比例与 ASR 呈正相关;减少数据比例(如从 100% 降至 20%)导致 ASR 下降约 12%,但整体攻击效果仍维持较高水准。
中毒率影响: 提升中毒数据比例(如从 5% 到 25%)显著增强 ASR,但对 ACC 几乎无影响,表明大多数进程在攻击条件下保持正常行为。
该研究扩展了基础模型在联邦学习环境中的威胁理解,提供了关键的技术方法和实验验证对策,有助于机器人助手、个性化医疗和隐私保护型 ML 系统的安全发展。
通过本研究,作者不仅唤起了对基础模型潜在威胁的关注,还提供了操作性强的方法和实验证明,为后续安全性研究提供了奠基参考。