本文档的研究由Weishi Li1, Yong Peng1*, Mengyao Du1, Fuhui Sun2, Xiaoyan Wang2*, Li Shen3 共同完成。作者单位分别为:1. 国防科技大学系统工程学院,2. 人民法院信息技术服务中心,3. 中山大学深圳校区网络空间安全学院。该研究成果发表于Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence (IJCAI-25)。
本研究属于人工智能领域,具体聚焦于联邦学习(Federated Learning)这一前沿方向。联邦学习旨在让多个参与方(客户端)在不共享原始本地数据的前提下,协同训练一个共享的机器学习模型,从而解决数据隐私和安全问题。其中,个性化联邦学习(Personalized Federated Learning, PFL)旨在为每个客户端训练一个符合其本地数据特性的定制化模型,以应对真实世界中普遍存在的数据异构性(Non-IID)问题,提升模型的泛化能力和鲁棒性。
然而,传统的集中式联邦学习存在中心服务器通信压力大、单点故障风险高等问题。去中心化个性化联邦学习(Decentralized PFL, DPFL)作为替代方案,取消了中心服务器,采用客户端之间点对点(Peer-to-Peer)的直接通信模式,在缓解通信瓶颈和增强系统健壮性方面具有优势。但即便如此,DPFL 仍然面临显著挑战:在大量节点参与时,频繁同步和传输完整的模型参数会产生巨大的通信开销,消耗宝贵的网络带宽(尤其是在移动或物联网设备上),并可能因通信延迟影响模型的一致性、准确性,甚至增加数据在传输过程中被窃取或隐私泄露的风险。
虽然已有研究提出通过模型压缩、优化算法或改进架构来降低通信量,但高通信成本和收敛缓慢的问题尚未得到根本解决。因此,本研究团队的目标是提出一种新颖的框架,在保证模型性能的同时,从根本上降低去中心化个性化联邦学习的通信负担,并加速收敛过程。
本研究提出了一种名为 DFedHP 的新型算法框架。该框架的核心创新在于,它并不直接在各客户端之间传输和聚合庞大的目标模型(如卷积神经网络)的全部参数,而是引入了一个更小的超网络(Hypernetwork)来生成目标模型中的共享参数部分,从而极大地削减了通信负载。
研究设计与算法流程: 研究对象的设定为 N 个客户端,每个客户端 i 拥有其私有且异构(Non-IID)的数据分布 D_i。模型参数被解耦为两部分:个性化参数 v_i(仅本地训练和更新)和共享参数(由超网络生成)。超网络 φ_i 的规模远小于目标模型,它以可学习的嵌入向量 z_i 为输入,动态地生成目标模型中共享层的权重 h(φ_i, z_i)。因此,客户端的完整模型表示为 θ_i = (h(φ_i, z_i), v_i)。
DFedHP 的工作流程(如图1所示)包含以下几个关键步骤,这些步骤在每个通信轮次中循环进行: 1. 模型生成:每个客户端利用其本地超网络 φ_i 和嵌入向量 z_i,生成当前轮次目标模型的共享参数部分。 2. 完整模型构建:客户端将上一步生成的共享参数,与从上一轮训练中保留下来的个性化参数 v_i 相结合,构成一个用于本地训练的完整模型。 3. 本地训练与多阶段更新:客户端在自己的私有数据上进行多轮本地迭代训练。更新过程是顺序进行的: * 首先,固定超网络和嵌入向量,仅更新个性化参数 v_i(k_v 个本地 epoch)。 * 其次,固定嵌入向量和更新后的个性化参数,更新超网络的参数 φ_i(k_φ 个本地 epoch)。 * 最后,固定更新后的超网络和个性化参数,更新嵌入向量 z_i(k_z 个本地 epoch)。 这种分阶段更新策略确保了各部分参数的协同优化。 4. 邻居通信与超网络聚合:本地训练结束后,客户端并不发送完整的模型权重,而是仅将其更新后的超网络参数 φ_i 和嵌入向量 z_i 发送给其在通信拓扑图中的邻居节点(根据预定义的混合矩阵 W 确定连接关系)。 5. 参数聚合:客户端接收来自所有邻居的 (φ, z) 参数,并按照混合矩阵 W 的权重进行加权平均,聚合得到新的本地超网络和嵌入向量,用于下一轮的模型生成。 6. 循环迭代:重复步骤 1-5,进行 T 个通信轮次。
数据分析与实验验证流程: 为了验证 DFedHP 的有效性,研究团队设计了全面的实验。 1. 数据集与数据划分:实验在三个标准的图像分类数据集上进行:CIFAR-10、CIFAR-100 和 Tiny-ImageNet。为了模拟真实世界的数据异构性,采用了两种主流的非独立同分布数据划分方式:狄利克雷分布(Dirichlet distribution,参数 α 控制异构程度,α 越小越异构)和病理性划分(Pathological distribution,为每个客户端分配有限数量的类别,分配的类别数 c 越少越异构)。 2. 基线模型与训练设置:研究将 DFedHP 与多种先进的基线方法进行了对比,包括集中式联邦学习算法(FedAvg, FedPer, Ditto)和去中心化联邦学习算法(DFedAvg, DFedAlt)。此外,还测试了将 DFedHP 作为插件集成到其他 PFL 方法(如 DispFL)中的效果(即 DispFL+HP)。所有实验均使用 ResNet-18 作为骨干网络,客户端总数为 100,每个通信轮次的参与比例为 0.1,本地训练 epoch 数为 4。 3. 超网络结构:文中采用的超网络由两个线性层和激活函数组成。这种设计使得需要传输的参数数量远少于原始目标网络。在 ResNet-18 的配置下,每轮通信传输的参数数量从无超网络时的最大 43,666.97 KB 锐减至 5,321.06 KB,通信量减少了高达 87.81%。 4. 评估指标:主要评估指标包括: * 个性化测试精度:每个客户端在其本地测试集上的分类准确率。 * 通信成本:达成特定目标精度所需的通信轮次数,以及每轮通信传输的数据量。 * 收敛速度:测试精度随通信轮次增加的提升曲线。
本研究的结论是,所提出的 DFedHP 框架成功地为去中心化个性化联邦学习提供了一种高效、灵活且性能优异的解决方案。
其科学价值在于:第一,创新性地将超网络引入 DPFL 场景,实现了模型训练复杂度与通信复杂度的解耦。客户端可以训练任意大的本地模型,但通信时只传输小得多的超网络参数,这为从根本上降低联邦学习通信开销开辟了新思路。第二,提供了一套完整的算法流程和理论分析框架,为后续相关研究奠定了坚实的基础。第三,通过部分个性化模型(卷积层共享、全连接层个性化)的设计,契合了深度神经网络特征提取的层次性原理,提高了资源利用效率。
其应用价值尤为突出:DFedHP 大幅降低的通信成本和加速的收敛速度,使其特别适用于资源受限、网络条件差或需要快速迭代更新的边缘计算场景,例如物联网设备、移动终端和分布式传感器网络。在这些场景中,带宽是稀缺资源,设备计算能力有限,DFedHP 能够在不牺牲模型个性化性能的前提下,极大提升联邦学习系统的实用性和部署可行性。同时,仅传输超网络参数而非完整模型,也增加了一层抽象屏障,有助于进一步保护用户隐私。
文章还简要回顾了去中心化联邦学习、个性化联邦学习以及超网络相关的研究进展(Related Work),清晰地将本研究定位在现有工作的交叉点和前沿。此外,研究得到了中国国家自然科学基金的资助,并遵循了规范的学术贡献声明和参考文献格式。算法1以伪代码形式清晰地列出了 DFedHP 的完整步骤,便于其他研究者复现和应用。