分享自:

如何对分割学习进行后门攻击

期刊:neural networksDOI:10.1016/j.neunet.2023.09.037

Split Learning中的后门攻击漏洞研究:从客户端与服务器视角的双重威胁分析

作者及机构
本研究的核心作者团队包括Fangchao Yu、Lina Wang(通讯作者)、Bo Zeng、Kai Zhao、Zhi Pang和Tian Wu,均来自武汉大学空天信息安全与可信计算教育部重点实验室(School of Cyber Science and Engineering, Wuhan University)。研究成果发表于期刊《Neural Networks》2023年第168卷(326-336页),在线发布于2023年9月24日。

学术背景
Split Learning(分割学习)作为一种新兴的分布式学习框架,因其对计算资源受限设备的友好性,被视为联邦学习(Federated Learning)的有效补充。其核心特点是将完整神经网络模型分割为多个部分,由不同参与者分别持有。然而,数据与模型控制权与使用权的分离引发了安全隐患。尽管此前研究多聚焦于推理攻击(如数据重构和标签窃取),本研究首次系统性揭示了Split Learning对后门攻击(Backdoor Attack)的脆弱性,填补了该领域的安全研究空白。研究目标包括:(1) 提出客户端与服务器端的双重攻击框架;(2) 通过辅助模型(Auxiliary Model)增强后门攻击效果;(3) 验证攻击在非独立同分布(Non-IID)数据场景下的普适性。

研究流程与方法
1. 客户端后门攻击框架
- 威胁模型:假设攻击者控制至少一个客户端,可篡改本地数据但无法干预服务器。
- 攻击流程
- 后门样本标记:针对两种场景设计标记策略:(a) 客户端持有完整数据时直接修改样本特征与标签;(b) 特征与标签分离时,通过数据对齐将后门样本与目标标签关联。
- 模型训练:引入辅助模型(二元分类器)增强特征空间区分度。客户端模型($f_c$)与服务器主模型($f_m$)联合训练时,通过损失函数$Loss_m + Loss_a$(主任务损失与辅助分类损失)引导梯度更新,使$f_c$对后门样本敏感。
- 实验设计:在MNIST、Fashion-MNIST和CIFAR-10数据集上测试,客户端数量$K=10$(含1个恶意客户端),后门样本数$m=100$,目标标签$t=1$。采用三种分割策略(Split A-C)验证模型深度对攻击的影响。

  1. 服务器端后门攻击框架
    • 威胁模型:攻击者控制服务器但无法接触客户端数据,需利用影子数据集(Shadow Dataset)模拟客户端数据分布。
    • 攻击流程
      • 特征空间劫持:服务器训练带后门的影子模型($f_s$),通过生成对抗网络(GAN)将$f_s$的知识迁移至客户端模型$f_c$。判别器($D$)最小化$Z_c$(客户端特征)与$Z_s$(影子特征)的差异,使$f_c$隐式学习后门编码能力。
      • 辅助模型增强:通过$f_a$强化后门样本在特征空间的显著性,延长后门存活周期。
    • 实验验证:采用四种分割策略(Split 1-4),对比不同客户端模型深度下的攻击效果。结果显示,浅层客户端模型(如Split 1)后门攻击成功率更高(MNIST达95.01%)。

主要结果与逻辑链条
1. 客户端攻击效果
- 在MNIST和Fashion-MNIST上,攻击成功率接近100%;CIFAR-10因样本复杂度较高,成功率略低(96.72%)。
- 辅助模型使CIFAR-10在仅20个后门样本时攻击成功率提升35%(图8-9)。
- 非独立同分布数据下攻击性能下降但仍具威胁(Fashion-MNIST攻击成功率降低约10%)。

  1. 服务器攻击效果
    • 特征空间劫持导致信息损失,但攻击成功率仍达88.22%(Fashion-MNIST,Split 1)。
    • 增加影子数据集样本量可提升主任务精度,但对后门攻击效果影响有限(图17)。

结论与价值
本研究揭示了Split Learning在分布式架构设计中的本质缺陷:
1. 科学价值:首次证明后门攻击可通过客户端数据污染或服务器训练劫持实现,挑战了此前“Split Learning对后门攻击具有高鲁棒性”的结论(如Tajalli等人2023年的观点)。
2. 应用意义:为恶意流量检测等实际场景中的模型安全部署敲响警钟,例如攻击者可通过植入后门绕过安全检测。
3. 方法论创新:提出的辅助模型机制可泛化至其他分布式学习框架,为后门防御研究提供新靶点。

研究亮点
1. 双重攻击视角:首次同时覆盖客户端与服务器攻击路径,揭示Split Learning全链路脆弱性。
2. 动态增强机制:通过辅助模型解决后门样本不足导致的特征衰减问题,延长攻击生命周期。
3. 普适性验证:在IID/Non-IID数据、不同模型分割策略下均保持高攻击成功率,且不影响主任务性能(MNIST主任务精度99.58% vs. 基线99.61%)。

其他发现
- 多恶意客户端协同可进一步提升攻击效率(图7),但需权衡隐蔽性。
- 服务器攻击对浅层客户端模型更有效,暗示模型分割策略与安全性的关联性(表4)。

本研究为后续防御机制开发指明方向:需重点限制客户端模型对后门样本的编码能力,同时监控服务器训练过程的梯度异常。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com