这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由以下团队合作完成:
- Liping Yi(第一作者,单位:1. 南开大学计算机学院;2. 新加坡南洋理工大学计算与数据科学学院)
- Han Yu(通讯作者,单位:新加坡南洋理工大学)
- Chao Ren(新加坡南洋理工大学)
- Gang Wang(通讯作者,单位:南开大学)
- Xiaoguang Liu(南开大学)
- Xiaoxiao Li(单位:3. 加拿大不列颠哥伦比亚大学电气与计算机工程系;4. 加拿大Vector研究所)
论文发表于NeurIPS 2024(第38届神经信息处理系统会议)。
本研究属于联邦学习(Federated Learning, FL)领域,聚焦于模型异构联邦学习(Model-Heterogeneous FL, MHeteroFL)的核心挑战。传统联邦学习要求所有客户端共享同一模型结构,但实际场景中,客户端可能因数据异构性(Non-IID数据分布)、系统异构性(计算/通信资源差异)和模型异构性(专有模型知识产权保护)而无法满足这一条件。现有MHeteroFL方法依赖训练损失传递知识,导致知识交互效率低、通信成本高,且可能泄露本地模型隐私。
团队提出FedMRL(Federated Model Heterogeneous Matryoshka Representation Learning),旨在通过以下创新解决上述问题:
1. 自适应表征融合:通过轻量级个性化表征投影器(Personalized Representation Projector)融合全局模型与本地模型的异构特征。
2. 多粒度表征学习:利用套娃表征学习(Matryoshka Representation Learning, MRL)技术,从粗粒度到细粒度多层次提取特征,提升模型表达能力。
FedMRL包含三个核心组件:
- 全局同质小模型(Global Homogeneous Small Model):由服务器维护,所有客户端共享。
- 客户端异构本地模型(Heterogeneous Local Model):结构可定制,适应本地数据和资源。
- 个性化表征投影器:动态适配本地数据分布,融合全局与本地特征。
步骤1:自适应表征融合
- 对每个数据样本,全局模型和本地模型的特征提取器分别生成通用表征(Generalized Representation)和个性化表征(Personalized Representation)。
- 通过拼接和投影操作,生成融合表征(Fused Representation),其维度与本地模型匹配。
- 创新点:投影器为轻量级线性层或MLP,可随训练动态调整,适应非独立同分布数据。
步骤2:多粒度表征学习
- 从融合表征中提取低维粗粒度表征(Low-Dimension Coarse-Granularity)和高维细粒度表征(High-Dimension Fine-Granularity)。
- 分别输入全局模型头部和本地模型头部计算损失,加权求和后更新所有模型参数。
- 理论支撑:证明了FedMRL在非凸条件下的收敛速率为O(1/T)。
(全文约2200字)