本研究由香港中文大学(深圳)的Yongxin Guo、Xiaoying Tang(通讯作者)与西湖大学的Tao Lin共同完成,发表于2025年的ICLR(International Conference on Learning Representations)会议论文集,题为《Enhancing Clustered Federated Learning: Integration of Strategies and Improved Methodologies》。
科学领域与动机
本研究属于分布式机器学习领域,聚焦于联邦学习(Federated Learning, FL)中的非独立同分布(Non-IID)数据挑战。传统FL通过边缘设备本地训练保护隐私,但数据分布的异质性导致全局模型难以适配所有客户端的本地分布。现有解决方案(如客户聚类)因方法异构性难以集成优势。为此,团队提出HCFL(Holistic Clustered Federated Learning)框架,统一现有聚类方法,并进一步开发增强版HCFL+以解决遗留问题。
背景知识
- 联邦学习(FL):隐私保护的分布式学习框架,数据保留在本地,仅上传模型参数更新。
- 集群联邦学习(Clustered FL):将数据分布相似的客户端分组,每组训练独立模型以应对异质性。
- 核心挑战:现有方法在聚类目标(如条件分布、联合分布)、权重计算(硬聚类/软聚类)、自适应聚类流程等方面缺乏统一框架。
研究目标
1. 提出四层HCFL框架,整合现有聚类方法;
2. 识别各层未解决的挑战并设计改进算法HCFL+;
3. 验证框架在复杂数据分布下的性能优势。
1. HCFL框架设计
- 四层结构:
- 第一层:聚类目标(Cluster Formulations)
定义最大化条件分布、联合分布或变量关系的目标函数,兼容FedEM(联合分布)、FedRC(变量相关性)等方法。
- 第二层:聚类权重计算(Cluster Weights Calculation)
支持硬聚类(如IFCA)和软聚类(如FedEM),后者允许客户端贡献于多个集群。
- 第三层:自适应聚类流程(Adaptive Clustering Procedure)
动态调整集群数量,支持分裂(CFL)、合并(STOCFL)等操作。
- 第四层:客户端距离度量(Client Distance Metrics)
基于梯度相似性(CFL)、模型参数距离(FESEM)或特征范数(Wei & Huang, 2023)。
2. HCFL+改进方法
针对HCFL四层的遗留问题:
- 第一层改进:
- 样本级权重不一致:提出共享特征提取器ϕ与集群专用预测器θ,减少通信成本;引入样本级权重ω_{i,j;k}解决同一客户端内样本分布差异问题。
- 效率优化:通过轻量级分类层降低计算负担。
- 第二、三层改进:
- 软聚类的自适应流程:设计权重更新机制(SCWU),支持集群动态分裂与合并(算法4-5),如图3c-d所示。
- 第四层改进:
- 细粒度距离度量:基于聚类原则(ASCP/CSCP)设计距离函数(公式9),结合局部特征范数及条件分布差异,优于传统梯度相似性(表2)。
3. 实验验证
- 数据集:CIFAR10、CIFAR100、Tiny-ImageNet,模拟标签分布偏移、特征偏移和概念偏移。
- 基线模型:包括FedAvg(单模型)、IFCA(硬聚类)、FedEM(软聚类)及自适应方法(CFL、ICFL)。
- 评估指标:验证准确率(个性化能力)、测试准确率(泛化性)、最终集群数k_t。
性能对比(表1)
- HCFL+的平衡性:在CIFAR10(β=0.2)中,HCFL+(FedRC)取得69.67%测试准确率(k_t=3),优于FedEM(53.64%)和CFL(55.02%)。
- 软聚类优势:HCFL+(FedEM)的测试准确率显著高于硬聚类方法(如FESEM),证明其处理混合分布的能力。
- 自适应有效性:HCFL+(ρ=0.3)自动收敛至理想集群数(如CIFAR100中k_t=3.5),而ICFL因过度分裂(k_t=100)导致泛化性下降。
消融实验(图3,表2)
- 样本级权重(µ̃):FedEM偏好小µ̃(权重差异小),而FedRC偏好大µ̃,验证了异构样本需求。
- 距离度量改进:最大类间距离(公式9)比均值距离提升3.15%准确率(CIFAR10)。
科学意义
1. 框架统一性:HCFL首次将异构聚类方法整合为四层可扩展框架。
2. 算法创新:HCFL+解决了样本级权重、自适应软聚类等关键挑战,提升个性化与泛化的平衡。
应用价值
- 医疗/金融场景:支持多中心数据协作,同时适应本地分布差异。
- 效率优化:特征-分类器拆分减少80%通信开销(附录E)。