分享自:

基于部分蒸馏的个性化联邦学习

期刊:frontiers of computer scienceDOI:10.1007/s11704-025-40840-4

个性化联邦学习新方法:基于部分蒸馏的FedPD研究进展

一、作者与发表信息
本文由Xu Yang、Ji-Yuan Feng、Song-Yue Guo、Bin-Xing Fang及Qing Liao(通讯作者)合作完成,作者单位包括哈尔滨工业大学(深圳)计算机科学与技术学院和鹏城实验室新型网络学部。研究于2026年3月发表在期刊*Frontiers of Computer Science*(Volume 20, Issue 3),文章标题为《FedPD: Personalized Federated Learning Based on Partial Distillation》,开放获取发布于Springer和HEP平台。

二、学术背景与研究动机
科学领域:本研究属于联邦学习(Federated Learning, FL)领域,聚焦于解决数据异构性和模型异构性挑战的个性化联邦学习(Personalized Federated Learning, PFL)。
研究背景:传统PFL方法要求客户端模型架构一致,但实际场景中客户端设备算力、模型结构差异显著。现有基于知识蒸馏(Knowledge Distillation)的异构联邦学习方法未充分考虑不同蒸馏知识的重要性,导致协作效率低下。
研究目标:提出FedPD方法,通过部分蒸馏(Partial Distillation)实现选择性知识迁移,提升异构客户端模型的性能。

三、研究方法与流程
FedPD包含两个核心模块:部分知识迁移(Partial Knowledge Transfer, PKT)部分知识集成(Partial Knowledge Ensemble, PKE)

  1. PKT模块

    • 功能:评估不同蒸馏知识对客户端的重要性,筛选高价值知识。
    • 关键技术
      • 引入部分蒸馏系数(Partial Distillation Coefficient, α),通过优化目标函数动态调整知识权重:
        [ L_d(\omega_n, \alphan) = \frac{1}{|D|} \sum{i=1}^{|D|} \alpha_{n,i} L_1(f(\hat{x}_i; \omegan^f), z{n,i}^s) + \tau |\alpha_n - 1|_2 ] 其中,(L_1)为损失函数,(\tau)为调节参数,防止权重过度偏离均衡值。
      • 交替优化模型参数(\omega_n)与系数(\alpha_n),形成正向反馈循环。
  2. PKE模块

    • 功能:为每个客户端生成个性化全局知识。
    • 实现步骤
      • 服务器为每个客户端维护独立的服务器模型,架构统一但输出层适配客户端知识维度。
      • 通过正则化损失函数融合客户端知识与全局基础模型(Global Basic Model)特征:
        [ Ls = \sum{i=1}^{|D|} L_1(h(\hat{x}_i; \omegan^s), z{n,i}) + \mu |\omega_n^{s,f} - \bar{\omega}^{s,f}|_2 ] 其中,(\mu)控制个性化与全局知识的平衡。
  3. 实验设置

    • 数据集:CIFAR-10、CIFAR-100、EMNIST和Fashion-MNIST,采用Dirichlet分布模拟不同异构程度((\beta=0.1)高异构,(\beta=0.5)低异构)。
    • 模型架构:客户端使用LeNet、ResNet-18等异构模型,服务器模型统一为ResNet-34。
    • 对比方法:包括FedMD、FedDF、KT-PFL等6种前沿方法。

四、主要研究结果
1. 性能优势
- 在CIFAR-10上(20客户端,(\beta=0.5)),FedPD的准确率(Acc)达49.81%,较最优基线KT-PFL提升2.78%;AUC-ROC提升8.02%。
- 高异构场景((\beta=0.1))下,FedPD在Fashion-MNIST上的准确率(89.98%)比FedHKD高2.16%。

  1. 收敛性

    • FedPD在200通信轮次内快速收敛,且最终精度显著高于基线(如EMNIST达94.21%)。
  2. 模块有效性验证

    • 消融实验:同时使用PKT与PKE时,性能较基线提升10%,单独使用PKT或PKE分别提升3.14%和2.52%。
    • 可视化分析:t-SNE显示FedPD提取的特征更具类间可分性(见图4)。

五、结论与价值
科学价值
- 首次提出通过部分蒸馏系数量化知识重要性,解决了异构联邦学习中冗余知识干扰问题。
- 通过PKE模块实现个性化全局知识生成,突破了传统线性聚合的局限性。

应用价值
- 适用于医疗、智慧城市等需隐私保护且设备异构的场景,支持跨架构模型协作。

六、研究亮点
1. 方法创新:PKT与PKE的协同设计为异构联邦学习提供了新范式。
2. 鲁棒性:对公共数据集偏差不敏感(更换数据集精度波动<1.1%)。
3. 可扩展性:客户端规模从5增至50时性能稳定提升(图5)。

七、其他发现
- 超参数分析表明,调节(\tau)和(\mu)可平衡个性化与泛化能力(表7-9)。
- 计算复杂度为(O((d+w+p)mn)),通信成本可控(每轮2dm)。

展望:未来可探索动态蒸馏系数优化及跨模态联邦学习中的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com