分享自:

面向高效能多任务联邦学习的联合客户端选择与资源配置方法

期刊:IEEE Transactions on ComputersDOI:10.1109/TC.2025.3605765

关于JCSRC:面向能效优化的多任务联邦学习联合客户端选择与资源配置方法的研究报告

本文旨在向中文科研界介绍一篇发表于《IEEE Transactions on Computers》期刊2025年12月第74卷第12期上的原创性研究论文。该论文由南京理工大学、华东师范大学、OPPO研究院及香港科技大学的研究人员共同完成,标题为“JCSRC: Joint Client Selection and Resource Configuration for Energy-Efficient Multi-Task Federated Learning”。以下将对该研究进行全面、详细的学术报告。

一、 研究作者、机构与发表信息

本研究的主要作者包括:柯俊鹏、周俊龙(IEEE会员)、孟丹、曾悦、石一舟、屈向谋以及郭嵩(IEEE Fellow)。作者单位分别为:南京理工大学计算机科学与工程学院(柯俊鹏、周俊龙、曾悦、石一舟)、华东师范大学(孟丹)、OPPO研究院(屈向谋)以及香港科技大学计算机科学与工程系(郭嵩)。周俊龙研究员为本文的通讯作者。该研究得到了国家自然科学基金、江苏省自然科学基金以及东南大学移动通信国家重点实验室开放研究基金的支持。论文于2025年9月4日在线发表,并于2025年11月10日发布当前版本。

二、 学术背景与研究目标

本研究属于边缘计算与人工智能交叉领域,具体聚焦于联邦学习(Federated Learning, FL) 的能效优化问题。联邦学习作为一种分布式机器学习范式,允许模型在终端设备(客户端)上利用本地数据进行训练,无需上传原始数据,从而有效保护用户隐私。随着边缘智能应用的爆炸式增长,边缘设备需要同时为多种不同任务(如图像识别、自然语言处理等)提供服务,这催生了多任务联邦学习(Multi-Task FL) 的需求。与单任务联邦学习相比,多任务联邦学习允许多个模型同时在多组客户端上并行训练,理论上能更充分地利用边缘设备的计算和数据资源。

然而,在资源受限(计算、通信能力有限)且设备异构(硬件性能、数据分布不均)的边缘环境中,高效地进行多任务联邦学习面临严峻挑战。一方面,为每个任务选择合适的参与客户端至关重要,这关系到模型收敛速度、最终精度以及参与设备的总能耗。另一方面,每个被选中的客户端需要为其承载的多个任务合理分配计算(如CPU频率)和通信(如带宽)资源,以避免资源竞争导致训练时间过长或能耗过高。现有研究工作大多单独优化客户端选择或资源配置,这种解耦的优化方式容易导致整体方案陷入局部最优,无法实现全局能效最大化。

因此,本研究旨在解决一个关键问题:如何在满足多任务目标精度的前提下,通过联合优化客户端选择与客户端资源配置,最小化整个多任务联邦学习系统的总能耗? 具体目标包括:1) 形式化定义该联合优化问题;2) 设计高效的求解算法;3) 通过仿真与真实平台实验验证所提方案的有效性。

三、 详细研究流程与方法

本研究工作流程清晰,主要包含问题建模、算法设计与实验验证三大阶段。

第一阶段:问题形式化与复杂性分析 研究团队首先构建了一个包含一个联邦学习服务器和众多异构客户端的系统模型。模型考虑了每个客户端的本地数据集大小、数据分布质量(用损失值表征非独立同分布程度)、可用的离散CPU频率集合、最大通信带宽、以及每个任务的计算负载等参数。基于此,他们推导了每轮训练中客户端的计算时间、通信时间、计算能耗和通信能耗的数学模型。

随后,研究者将“最小化达到所有任务目标精度所需的总能耗”这一目标,形式化为一个混合整数非线性规划(Mixed-Integer Nonlinear Programming, MINLP) 问题(文中称为问题P1)。该问题的决策变量包括:为每个任务i选择哪些客户端k的二元变量pi,k,l;为每个客户端k上每个任务i分配的计算频率fi,k,l;以及为每个客户端k分配的通信带宽bk,l。约束条件包括每轮训练的总时间上限、带宽上限、频率离散取值以及各任务达到目标精度。

研究团队证明了该优化问题是NP-hard的,这意味着在多项式时间内找到精确最优解是极其困难的。此外,问题还面临三大挑战:1) 多任务场景下客户端未来工作负载的动态不确定性;2) 机器学习模型的“黑箱”特性使得模型精度难以用封闭数学形式表达并作为约束;3) 问题本质是一个长期优化问题。这些挑战促使研究者转向设计基于学习与优化的高效近似算法。

第二阶段:JCSRC框架设计——联合优化算法 为解决上述难题,研究者提出了名为JCSRC的创新框架,该框架由服务器端的基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的客户端选择算法和客户端的基于粒子群优化(Particle Swarm Optimization, PSO)的资源配置算法协同构成。

1. MARL-based 客户端选择算法: * 设计思路:将每个联邦学习任务视为一个独立的智能体(Agent)。在每轮训练开始前,服务器运行这些智能体,共同决定为每个任务选择哪些客户端参与。 * 状态空间设计:每个智能体i观察到的状态si,l包含从所有客户端k收集的信息子状态si,k,l。子状态具体包括:客户端k对任务i的数据分布质量(损失值)qi,k,l、本地数据量di,k、上一轮分配的计算频率fi,k,l-1和带宽bk,l-1、客户端能处理的最大任务数nmax_k以及上一轮实际接收的任务数nk,l-1。这些信息综合反映了客户端的数据价值、资源状况和当前负载。 * 动作空间设计:每个智能体的动作是输出一个长度为|Mi|(为任务i选择的客户端数量)的客户端选择列表。为应对巨大的组合动作空间,算法采用了一种简化策略:Actor网络为每个客户端输出一个“收益”评分ζi,k,l,然后选择评分最高的|Mi|个客户端,并结合ε-greedy策略平衡探索与利用。 * 奖励函数设计:奖励函数是算法的核心创新之一,旨在平衡模型贡献能耗成本。对于每个被选中的客户端k,其奖励ri,k,l由两部分加权组成:一部分是短期奖励,正比于该客户端上一轮本地模型对全局模型精度的贡献(通过模型参数相对距离度量)与归一化后的能耗的加权差;另一部分是长期奖励(上一轮的奖励),用于防止智能体因偶尔表现不佳而永久抛弃某些客户端。这种设计引导智能体不仅选择能快速提升模型精度的客户端,也倾向于选择能效高的客户端。 * 算法实现:采用MADDPG(Multi-Agent Deep Deterministic Policy Gradient) 框架进行训练。每个任务智能体拥有独立的Actor网络(生成动作)和Critic网络(评估动作价值),并利用经验回放池和缓慢更新的目标网络来稳定学习过程。算法流程(Algorithm 1)展示了服务器与客户端在每轮训练中的交互:服务器根据MARL策略选择客户端并分发模型;被选中的客户端调用本地资源配置算法进行训练并上传更新;服务器聚合模型、评估精度、计算奖励并更新智能体网络。

2. PSO-based 资源配置算法: * 理论分析基础:在客户端侧,给定被分配的任务集合,需要快速确定每个任务的CPU频率和总带宽。研究首先通过理论推导(定理1)证明:为了最小化客户端的计算能耗,分配给各个任务的CPU频率应与其计算工作量(样本数×浮点操作数)的立方根成正比。这为频率分配提供了指导原则。 * 问题转化:基于定理1,客户端的能耗优化问题可简化为主要优化一个基准任务的频率fk,l和总带宽bk,l。研究者进一步分析了该问题的连续松弛形式,证明了其是凸优化问题且满足强对偶性(定理2),并推导出能耗最优的必要条件(定理3):计算能耗对计算时间的偏导数应等于通信能耗对通信时间的偏导数。这实质上给出了计算与通信时间分配的最优平衡点。 * PSO求解器:由于实际频率是离散值,且定理3的条件涉及隐式指数项,无法获得闭式解。因此,研究设计了基于粒子群优化(PSO) 的启发式搜索算法(Algorithm 2)。每个粒子代表一个可能的(频率索引,带宽比例)解。适应度函数直接定义为定理3中左右两边偏导数之差的绝对值的负值,引导粒子群向最优平衡点搜索。PSO算法通过迭代更新粒子位置和速度,快速找到一个高质量的近优资源配置方案。该方案计算开销极低,远小于本地模型训练本身的开销。

第三阶段:性能评估实验 研究通过大规模仿真真实测试床实验验证JCSRC的有效性。 * 仿真设置:在包含100个异构客户端的模拟环境中进行测试。客户端硬件配置模拟了5种NVIDIA Jetson边缘平台(如Jetson Nano, Orin等),共10种计算能力类别。通信带宽设为5MHz。使用了MNIST、FashionMNIST和CIFAR-10三个数据集,并设置了IID(独立同分布)和不同α参数(0.5, 0.8)的非IID数据分区。任务数量设置为3、5、10三种规模。对比算法包括:FedAvg(随机选择)、AutoFL(基于Q学习的客户端选择)、MS-FedL(多任务资源调度)以及FedAvg-RC(FedAvg结合本文的PSO资源配置)。 * 测试床设置:构建了由1台服务器和10台真实Jetson设备(包括Jetson Orin, Orin NX, Orin Nano, Nano)组成的实验平台,在CIFAR-10数据集上运行3个任务。 * 实验内容: * 客户端资源配置实验:首先单独验证PSO资源配置算法的效果,与“最大频率缩放(MFS)”和“暴力搜索最优配置(BAS)”进行对比。结果显示,PSO方案能降低超过90%的能耗(相比MFS),且结果非常接近最优解BAS。 * 联合优化实验:在仿真中,从总能耗达到目标精度所需的训练轮数两个核心指标全面比较JCSRC与基线方法。在测试床上,同样测量了总能耗和收敛速度。

四、 主要研究结果与分析

实验结果表明,JCSRC框架在能效和性能方面均显著优于现有先进方法。

1. 资源配置算法有效性:如图4所示,在不同任务数量(3, 5, 10)下,PSO-based资源配置方案的能量消耗曲线始终远低于MFS方案(节能90%以上),并且与通过暴力搜索得到的近乎最优的BAS方案结果非常接近。这强有力地证明了理论推导的正确性以及PSO求解器在离散空间中寻找高质量近优解的有效性,为整个JCSRC框架的能效提升奠定了坚实基础。

2. 联合优化方案的卓越性能: * 能效大幅提升:在MNIST、FashionMNIST和CIFAR-10三个数据集上,无论数据是IID还是非IID分布,无论任务数量是3、5还是10,JCSRC在达到相同目标精度时消耗的总能量始终是最低的。具体而言,在MNIST数据集(3任务,非IID α=0.5)上,JCSRC相比FedAvg节能93.1%,相比MS-FedL节能87.3%,相比AutoFL节能59.2%。即使与同样采用了本文PSO资源配置策略的FedAvg-RC相比,JCSRC凭借其智能的客户端选择策略,还能进一步平均节能31.8%。这清晰地表明,联合优化客户端选择与资源配置产生了显著的协同增益,单独优化任何一方面都无法达到此效果。 * 收敛速度优势:在大多数实验设置下,JCSRC达到目标精度所需的训练轮数也少于或相当于其他方法。例如,在3任务场景下,JCSRC相比FedAvg和AutoFL平均减少了18%和7%的训练轮数。这说明其客户端选择策略有效地筛选了数据质量高、能效好的设备参与训练,加速了模型收敛。 * 应对多任务扩展性:随着任务数量从3增加到10,所有方法的能耗都会上升,但JCSRC的能耗增长幅度最小,展现了其良好的可扩展性。而AutoFL等方法在任务增多时性能下降明显,因为它们未考虑多任务下设备负载均衡问题。 * 训练稳定性与公平性:如图8-10所示,在10个任务同时训练时,JCSRC各任务准确率曲线波动最小,且没有出现任务“掉队”(无法收敛)的情况。而其他方法在某些任务上出现了明显的精度波动或停滞。此外,图11显示,JCSRC使得不同客户端之间的能耗分布更为均匀,避免了某些设备因负载过重而过早耗尽能量,体现了更好的公平性。

3. 测试床实验结果验证:真实环境下的实验结果(图12)与仿真结论一致。JCSRC相比FedAvg节能54.1%,相比FedAvg-RC节能44.4%,相比AutoFL节能52.2%,相比MS-FedL节能21.5%。同时,模型收敛速度也分别提升了38.9%、26.5%和6.4%。这充分证实了JCSRC在真实异构边缘设备网络中的有效性与实用性。

4. 算法开销分析:表III的测试数据显示,在Jetson Orin Nano和Orin设备上,执行一次PSO资源配置算法仅需约0.5秒,功耗约为1-1.6瓦;而执行一轮本地模型训练则需要数十秒和数瓦功耗。这表明PSO算法引入的计算与能量开销可以忽略不计,其带来的能效收益远大于自身成本。

五、 研究结论与价值

本研究成功提出并验证了JCSRC,一个用于能效优化多任务联邦学习的联合客户端选择与资源配置框架。主要结论如下:

  1. 问题定义与复杂性:首次系统研究并形式化了多任务联邦学习中的联合客户端选择与资源配置问题,将其建模为一个MINLP问题,并证明了其NP-hard难度,为该领域的后续研究奠定了理论基础。
  2. 方法论创新:设计了一个由服务器端MARL智能决策和客户端PSO快速寻优构成的协同优化框架。MARL部分通过精心设计的状态、动作和奖励函数,实现了在复杂动态环境中对客户端的高效、智能选择;PSO部分基于严谨的理论推导,能够为异构客户端快速找到近优的资源配置方案。
  3. 性能卓越:广泛的仿真与真实实验表明,JCSRC能够显著降低多任务联邦学习系统的总能耗(最高可达59%),同时保持良好的收敛速度和训练稳定性,并且其算法开销极低。
  4. 应用价值:该研究为在资源受限的边缘计算环境中部署高效、节能的多任务人工智能服务提供了切实可行的解决方案。对于移动设备、物联网终端等电池供电设备参与联邦学习具有重要的现实意义,有助于推动联邦学习技术在边缘侧的规模化应用。

六、 研究亮点

  1. 研究问题新颖:首次明确提出并系统研究“多任务联邦学习联合客户端选择与资源配置”这一耦合优化问题,抓住了提升边缘联邦学习能效的关键瓶颈。
  2. 解决方案巧妙:创新性地将MARL与PSO相结合,分别应对服务器端的长期序贯决策问题和客户端的快速局部优化问题,形成了“中心决策-边缘执行”的高效协同机制。
  3. 理论分析扎实:不仅形式化了问题,还通过数学推导得到了计算资源分配的最优比例关系(定理1)以及计算-通信时间分配的均衡条件(定理3),为启发式算法设计提供了坚实的理论指导。
  4. 奖励函数设计精妙:MARL的奖励函数同时考虑了客户端的模型贡献(促进收敛)和能耗成本(提升能效),并引入长期记忆避免“遗忘”优质客户端,引导智能体学习到全局能效最优的选择策略。
  5. 验证全面充分:不仅进行了大规模仿真,还在真实异构硬件测试床上进行了验证,增强了研究成果的可信度和说服力。

七、 其他有价值的要点

本研究还对未来工作进行了展望,指出当前模型假设客户端资源和数据分布相对稳定,而实际环境中设备的动态加入/退出、网络条件波动、数据实时生成等因素会带来更大挑战。因此,未来将致力于研究更具鲁棒性和自适应能力的动态多任务联邦学习框架。这指出了该领域一个有价值的后续研究方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com