分享自:

基于知识解耦和特征解相关的个性化联邦学习框架DKDPFed

期刊:Expert Systems with ApplicationsDOI:10.1016/j.eswa.2024.125336

学术研究报告:DKd-PFed——一种通过解耦知识蒸馏和特征去相关实现个性化联邦学习的新框架

作者及机构
本研究的作者为Liwei Su、Donghao Wang和Jinghua Zhu(通讯作者),均来自黑龙江大学计算机科学与技术学院。研究成果发表于*Expert Systems with Applications*期刊,2025年第259卷,文章编号125336。

学术背景
研究领域为个性化联邦学习(Personalized Federated Learning, PFL),旨在解决联邦学习(Federated Learning, FL)中数据异构性(non-IID)导致的模型性能下降问题。传统联邦学习(如FedAvg)假设客户端数据独立同分布(IID),但实际场景中,客户端数据分布差异显著(如医疗影像、移动用户数据),导致全局模型难以适配局部任务。为此,PFL通过客户端个性化模型协作训练,平衡个性化与泛化能力。

本研究聚焦知识蒸馏(Knowledge Distillation, KD)在PFL中的应用挑战:
1. 传统KD中,学生模型无法充分学习教师模型传递的知识;
2. 蒸馏效率依赖学生模型的初始性能,限制整体表现。
为解决这些问题,作者提出DKd-PFed框架,通过解耦知识蒸馏(Decoupled Knowledge Distillation, DKD)特征去相关(Feature Decorrelation, FD)提升个性化学习效率。

研究流程与方法
1. 框架设计
- 客户端初始化:服务器广播全局模型至客户端,客户端用其初始化本地模型。
- 历史知识保留:每轮训练后,客户端保存当前模型作为下一轮的教师模型,避免知识遗忘。
- 解耦知识蒸馏:将教师模型的logits(逻辑输出)分解为目标类相关(Target Class-Relevant, TCR)目标类无关(Target Class-Unrelated, TCU)两部分,分别通过权重参数(α, β)调整其贡献(公式10)。
- 特征去相关:引入Frobenius范数正则化项(公式11),防止数据异构导致的特征维度坍塌。

  1. 实验设置

    • 数据集:CIFAR-10、CIFAR-100、Fashion-MNIST,通过Dirichlet分布(参数α=0.10.5)模拟非IID数据。
    • 对比模型:包括FedAvg、FedProx等非个性化方法,以及LG-FedAvg、pFedSD等PFL方法。
    • 评估指标:Top-1/Top-5准确率、客户端性能标准差(公平性)。
  2. 核心算法

    • 服务器端(Algorithm 1):聚合客户端模型,更新全局模型。
    • 客户端(Algorithm 2):本地训练结合DKD和FD损失(公式12),优化个性化模型。

主要结果
1. 性能优势
- 在α=0.1(高异构)下,DKd-PFed在CIFAR-10、CIFAR-100和Fashion-MNIST上的平均准确率分别提升16.49%、17.76%和8.86%(表3)。
- 客户端性能标准差显著降低(表4),表明模型公平性优于pFedSD等基线。

  1. 稳定性分析

    • 不同参与率(r=10%~100%)下,DKd-PFed均保持最高准确率(图5)。
    • T-SNE可视化显示,其特征分离性优于传统KD方法(图6)。
  2. 消融实验

    • DKD和FD的联合使用使准确率提升至90.11%(表6),验证了各模块的必要性。

结论与价值
1. 科学价值
- 首次将解耦知识蒸馏引入PFL,解决了个性化知识遗忘问题。
- 特征去相关机制有效缓解了数据异构导致的维度坍塌。

  1. 应用价值
    • 适用于医疗、物联网等隐私敏感场景,客户端无需上传原始数据,仅通过模型参数协作。
    • 代码开源(GitHub仓库),便于工业部署。

研究亮点
1. 方法创新:DKD将logits蒸馏解耦为TCR与TCU,灵活平衡知识迁移效率。
2. 性能鲁棒性:在极端非IID(α=0.1)和小参与率(r=10%)下仍表现优异。
3. 隐私保护:全程客户端本地化处理,符合GDPR等隐私法规要求。

局限与展望
当前框架需额外存储历史模型,未来计划开发自适应存储策略以降低开销。此外,将进一步优化知识蒸馏的计算效率。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com