Split Learning中的后门攻击漏洞研究:从客户端与服务器视角的双重威胁分析
作者及机构
本研究的核心作者团队包括Fangchao Yu、Lina Wang(通讯作者)、Bo Zeng、Kai Zhao、Zhi Pang和Tian Wu,均来自武汉大学空天信息安全与可信计算教育部重点实验室(School of Cyber Science and Engineering, Wuhan University)。研究成果发表于期刊《Neural Networks》2023年第168卷(326-336页),在线发布于2023年9月24日。
学术背景
Split Learning(分割学习)作为一种新兴的分布式学习框架,因其对计算资源受限设备的友好性,被视为联邦学习(Federated Learning)的有效补充。其核心特点是将完整神经网络模型分割为多个部分,由不同参与者分别持有。然而,数据与模型控制权与使用权的分离引发了安全隐患。尽管此前研究多聚焦于推理攻击(如数据重构和标签窃取),本研究首次系统性揭示了Split Learning对后门攻击(Backdoor Attack)的脆弱性,填补了该领域的安全研究空白。研究目标包括:(1) 提出客户端与服务器端的双重攻击框架;(2) 通过辅助模型(Auxiliary Model)增强后门攻击效果;(3) 验证攻击在非独立同分布(Non-IID)数据场景下的普适性。
研究流程与方法
1. 客户端后门攻击框架
- 威胁模型:假设攻击者控制至少一个客户端,可篡改本地数据但无法干预服务器。
- 攻击流程:
- 后门样本标记:针对两种场景设计标记策略:(a) 客户端持有完整数据时直接修改样本特征与标签;(b) 特征与标签分离时,通过数据对齐将后门样本与目标标签关联。
- 模型训练:引入辅助模型(二元分类器)增强特征空间区分度。客户端模型($f_c$)与服务器主模型($f_m$)联合训练时,通过损失函数$Loss_m + Loss_a$(主任务损失与辅助分类损失)引导梯度更新,使$f_c$对后门样本敏感。
- 实验设计:在MNIST、Fashion-MNIST和CIFAR-10数据集上测试,客户端数量$K=10$(含1个恶意客户端),后门样本数$m=100$,目标标签$t=1$。采用三种分割策略(Split A-C)验证模型深度对攻击的影响。
主要结果与逻辑链条
1. 客户端攻击效果:
- 在MNIST和Fashion-MNIST上,攻击成功率接近100%;CIFAR-10因样本复杂度较高,成功率略低(96.72%)。
- 辅助模型使CIFAR-10在仅20个后门样本时攻击成功率提升35%(图8-9)。
- 非独立同分布数据下攻击性能下降但仍具威胁(Fashion-MNIST攻击成功率降低约10%)。
结论与价值
本研究揭示了Split Learning在分布式架构设计中的本质缺陷:
1. 科学价值:首次证明后门攻击可通过客户端数据污染或服务器训练劫持实现,挑战了此前“Split Learning对后门攻击具有高鲁棒性”的结论(如Tajalli等人2023年的观点)。
2. 应用意义:为恶意流量检测等实际场景中的模型安全部署敲响警钟,例如攻击者可通过植入后门绕过安全检测。
3. 方法论创新:提出的辅助模型机制可泛化至其他分布式学习框架,为后门防御研究提供新靶点。
研究亮点
1. 双重攻击视角:首次同时覆盖客户端与服务器攻击路径,揭示Split Learning全链路脆弱性。
2. 动态增强机制:通过辅助模型解决后门样本不足导致的特征衰减问题,延长攻击生命周期。
3. 普适性验证:在IID/Non-IID数据、不同模型分割策略下均保持高攻击成功率,且不影响主任务性能(MNIST主任务精度99.58% vs. 基线99.61%)。
其他发现
- 多恶意客户端协同可进一步提升攻击效率(图7),但需权衡隐蔽性。
- 服务器攻击对浅层客户端模型更有效,暗示模型分割策略与安全性的关联性(表4)。
本研究为后续防御机制开发指明方向:需重点限制客户端模型对后门样本的编码能力,同时监控服务器训练过程的梯度异常。