分享自:

基于分裂联邦学习的边缘到云计算环境中的联合客户端-服务器选择和资源分配

期刊:computer networksDOI:10.1016/j.comnet.2025.111502

类型a:

本文介绍了一项由Yishan Chen(江西理工大学)、Xiangwei Zeng(江西理工大学)、Xiansong Luo(江西理工大学)和Zhiquan Liu(暨南大学)共同完成的原创研究”Joint client–server selection and resource allocation based on split federated learning in edge-to-cloud computing environments”,该研究于2025年发表在期刊Computer Networks(第270卷)上。

在学术背景方面,随着大数据时代的到来和联邦学习(Federated Learning, FL)技术的发展,如何有效管理资源受限的边缘设备成为一个日益重要的问题。传统的联邦学习虽然能保护数据隐私,但也面临着计算负担增加、设备异构性等挑战。为此,研究者们提出了将分割学习(Split Learning, SL)与联邦学习相结合的拆分联邦学习(Split Federated Learning, SFL)方法。本研究针对现有SFL架构在边缘计算环境中部署时存在的训练延迟和能耗优化问题,提出了一种名为U型拆分联邦学习(U-SFL)的新型三层架构,并结合多目标优化方法解决客户-服务器选择和资源分配问题。

研究的工作流程包括以下几个主要步骤:

  1. 系统模型构建阶段: 研究团队设计了一个包含云、边缘和终端设备的三层U-SFL架构。该架构将全局模型分为三部分:客户端部署头模型(head model, W^h)和尾模型(tail model, W^t),边缘服务器部署中间模型(middle model, W^m)。与传统SFL相比,这种U型结构可以避免标签上传,更好地保护隐私。研究详细分析了该架构下的训练时间和能耗计算模型,包括局部训练时间、边缘训练时间、数据传输时间、本地聚合时间等。

  2. 问题建模阶段: 研究团队构建了一个考虑训练时间、能耗和准确度的多目标优化问题(公式17)。这个问题涉及离散的客户-服务器组合选择以及连续的CPU利用率分配变量。由于问题是非凸的NP难问题,研究者将其建模为参数化行动马尔可夫决策过程(Parameterized Action Markov Decision Process, PAMDP)。

  3. 算法开发阶段: 针对上述问题,研究团队开发了一种新的混合行动空间强化学习方法——多选择混合近端策略优化(Multi-select Hybrid Proximal Policy Optimization, MSHPPO)算法。该算法扩展了PPO-clip算法,包含三个离散动作网络和两个连续动作网络,可以联合优化离散的客户/服务器选择和连续的资源分配。特别地,针对大规模组合选择问题,算法采用多选择编码方式有效降低了动作空间维度。

  4. 实验验证阶段: 研究在模拟医疗场景(使用HAM10000数据集和Res-18模型)中进行了系统验证。实验设置了10个客户端、5个边缘服务器和1个云服务器的环境配置,设备的计算能力和带宽会动态波动(±10%)。对比实验包括了U-SFL与传统FL的架构对比,以及MSHPPO与其他强化学习算法(A3C、SAC、DQN、REINFORCE)在6种不同规模环境(10-5到20-10客户端-服务器)下的性能对比。结果评估指标包括累积奖励、能耗、训练时间、聚合时间和总系统时间。

研究的主要结果如下:

  1. U-SFL架构相比传统FL: 虽然U-SFL的每轮训练能耗(4.3 vs 3.5)和训练时间(3.5 vs 2.6)略高,但显著降低了聚合时间(9.6 vs 27.2),使得总系统时间仅为FL的一半左右(13.1 vs 29.8)。这表明U-SFL的分割架构有效减轻了通信瓶颈,特别适合需要快速响应的医疗场景。

  2. MSHPPO算法性能: 在累积奖励方面,MSHPPO(0.9)显著优于A3C(-22.9)、SAC(-4.0)等算法;在模型准确率方面达到74.0%;在系统总时间方面(13.1)也表现最优。特别值得注意的是,MSHPPO在16客户端-8服务器的配置下取得了10以上的正回报,展示了卓越的扩展性。

  3. 客户端和服务器数量影响: 研究表明,5-10个客户端参与时系统效率最佳(总时间11.38),而随着客户端数量增加至40个,总时间升至13.89;相反,增加服务器资源(从5到40个)可以显著改善性能,使累积奖励从-7.60提升到5.99。

研究的结论是:提出的U-SFL架构能有效优化边缘计算环境中的联邦学习效率,而MSHPPO算法通过混合行动空间建模实现了更好的资源调度。这种方法特别适用于医疗等对数据隐私和实时性要求高的场景,为分布式机器学习提供了新的范式。

本研究的亮点和创新性体现在: 1)首次提出U型三层分割的联邦学习架构,实现更好的隐私保护和计算效率平衡; 2)开发了支持大规模离散选择和连续控制联合优化的MSHPPO算法; 3)通过系统的实验验证了方法在不同规模环境下的优越性和鲁棒性。

另值得关注的是,研究还讨论了差分隐私(differential privacy)在防止碎片数据隐私泄露中的应用(公式1),以及在奖励函数设计中使用动态权重调整(公式18)等创新点。这些都为相关领域的后续研究提供了有价值的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com