学术研究报告:DKd-PFed——一种通过解耦知识蒸馏和特征去相关实现个性化联邦学习的新框架
作者及机构
本研究的作者为Liwei Su、Donghao Wang和Jinghua Zhu(通讯作者),均来自黑龙江大学计算机科学与技术学院。研究成果发表于*Expert Systems with Applications*期刊,2025年第259卷,文章编号125336。
学术背景
研究领域为个性化联邦学习(Personalized Federated Learning, PFL),旨在解决联邦学习(Federated Learning, FL)中数据异构性(non-IID)导致的模型性能下降问题。传统联邦学习(如FedAvg)假设客户端数据独立同分布(IID),但实际场景中,客户端数据分布差异显著(如医疗影像、移动用户数据),导致全局模型难以适配局部任务。为此,PFL通过客户端个性化模型协作训练,平衡个性化与泛化能力。
本研究聚焦知识蒸馏(Knowledge Distillation, KD)在PFL中的应用挑战:
1. 传统KD中,学生模型无法充分学习教师模型传递的知识;
2. 蒸馏效率依赖学生模型的初始性能,限制整体表现。
为解决这些问题,作者提出DKd-PFed框架,通过解耦知识蒸馏(Decoupled Knowledge Distillation, DKD)和特征去相关(Feature Decorrelation, FD)提升个性化学习效率。
研究流程与方法
1. 框架设计
- 客户端初始化:服务器广播全局模型至客户端,客户端用其初始化本地模型。
- 历史知识保留:每轮训练后,客户端保存当前模型作为下一轮的教师模型,避免知识遗忘。
- 解耦知识蒸馏:将教师模型的logits(逻辑输出)分解为目标类相关(Target Class-Relevant, TCR)和目标类无关(Target Class-Unrelated, TCU)两部分,分别通过权重参数(α, β)调整其贡献(公式10)。
- 特征去相关:引入Frobenius范数正则化项(公式11),防止数据异构导致的特征维度坍塌。
实验设置
核心算法
主要结果
1. 性能优势
- 在α=0.1(高异构)下,DKd-PFed在CIFAR-10、CIFAR-100和Fashion-MNIST上的平均准确率分别提升16.49%、17.76%和8.86%(表3)。
- 客户端性能标准差显著降低(表4),表明模型公平性优于pFedSD等基线。
稳定性分析
消融实验
结论与价值
1. 科学价值
- 首次将解耦知识蒸馏引入PFL,解决了个性化知识遗忘问题。
- 特征去相关机制有效缓解了数据异构导致的维度坍塌。
研究亮点
1. 方法创新:DKD将logits蒸馏解耦为TCR与TCU,灵活平衡知识迁移效率。
2. 性能鲁棒性:在极端非IID(α=0.1)和小参与率(r=10%)下仍表现优异。
3. 隐私保护:全程客户端本地化处理,符合GDPR等隐私法规要求。
局限与展望
当前框架需额外存储历史模型,未来计划开发自适应存储策略以降低开销。此外,将进一步优化知识蒸馏的计算效率。