基于超网络聚合的去中心化个性化联邦学习

分享自：
基于超网络聚合的去中心化个性化联邦学习

期刊:Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence (IJCAI-25)
本文档的研究由Weishi Li1, Yong Peng1*, Mengyao Du1, Fuhui Sun2, Xiaoyan Wang2*, Li Shen3 共同完成。作者单位分别为：1. 国防科技大学系统工程学院，2. 人民法院信息技术服务中心，3. 中山大学深圳校区网络空间安全学院。该研究成果发表于Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence (IJCAI-25)。
学术背景本研究属于人工智能领域，具体聚焦于联邦学习（Federated Learning）这一前沿方向。联邦学习旨在让多个参与方（客户端）在不共享原始本地数据的前提下，协同训练一个共享的机器学习模型，从而解决数据隐私和安全问题。其中，个性化联邦学习（Personalized Federated Learning, PFL）旨在为每个客户端训练一个符合其本地数据特性的定制化模型，以应对真实世界中普遍存在的数据异构性（Non-IID）问题，提升模型的泛化能力和鲁棒性。
然而，传统的集中式联邦学习存在中心服务器通信压力大、单点故障风险高等问题。去中心化个性化联邦学习（Decentralized PFL, DPFL）作为替代方案，取消了中心服务器，采用客户端之间点对点（Peer-to-Peer）的直接通信模式，在缓解通信瓶颈和增强系统健壮性方面具有优势。但即便如此，DPFL 仍然面临显著挑战：在大量节点参与时，频繁同步和传输完整的模型参数会产生巨大的通信开销，消耗宝贵的网络带宽（尤其是在移动或物联网设备上），并可能因通信延迟影响模型的一致性、准确性，甚至增加数据在传输过程中被窃取或隐私泄露的风险。
虽然已有研究提出通过模型压缩、优化算法或改进架构来降低通信量，但高通信成本和收敛缓慢的问题尚未得到根本解决。因此，本研究团队的目标是提出一种新颖的框架，在保证模型性能的同时，从根本上降低去中心化个性化联邦学习的通信负担，并加速收敛过程。
详细工作流程本研究提出了一种名为 DFedHP 的新型算法框架。该框架的核心创新在于，它并不直接在各客户端之间传输和聚合庞大的目标模型（如卷积神经网络）的全部参数，而是引入了一个更小的超网络（Hypernetwork）来生成目标模型中的共享参数部分，从而极大地削减了通信负载。
研究设计与算法流程： 研究对象的设定为 N 个客户端，每个客户端 i 拥有其私有且异构（Non-IID）的数据分布 D_i。模型参数被解耦为两部分：个性化参数 v_i（仅本地训练和更新）和共享参数（由超网络生成）。超网络 φ_i 的规模远小于目标模型，它以可学习的嵌入向量 z_i 为输入，动态地生成目标模型中共享层的权重 h(φ_i, z_i)。因此，客户端的完整模型表示为 θ_i = (h(φ_i, z_i), v_i)。
DFedHP 的工作流程（如图1所示）包含以下几个关键步骤，这些步骤在每个通信轮次中循环进行： 1. 模型生成：每个客户端利用其本地超网络 φ_i 和嵌入向量 z_i，生成当前轮次目标模型的共享参数部分。 2. 完整模型构建：客户端将上一步生成的共享参数，与从上一轮训练中保留下来的个性化参数 v_i 相结合，构成一个用于本地训练的完整模型。 3. 本地训练与多阶段更新：客户端在自己的私有数据上进行多轮本地迭代训练。更新过程是顺序进行的： * 首先，固定超网络和嵌入向量，仅更新个性化参数 v_i（k_v 个本地 epoch）。 * 其次，固定嵌入向量和更新后的个性化参数，更新超网络的参数 φ_i（k_φ 个本地 epoch）。 * 最后，固定更新后的超网络和个性化参数，更新嵌入向量 z_i（k_z 个本地 epoch）。 这种分阶段更新策略确保了各部分参数的协同优化。 4. 邻居通信与超网络聚合：本地训练结束后，客户端并不发送完整的模型权重，而是仅将其更新后的超网络参数 φ_i 和嵌入向量 z_i 发送给其在通信拓扑图中的邻居节点（根据预定义的混合矩阵 W 确定连接关系）。 5. 参数聚合：客户端接收来自所有邻居的 (φ, z) 参数，并按照混合矩阵 W 的权重进行加权平均，聚合得到新的本地超网络和嵌入向量，用于下一轮的模型生成。 6. 循环迭代：重复步骤 1-5，进行 T 个通信轮次。
数据分析与实验验证流程： 为了验证 DFedHP 的有效性，研究团队设计了全面的实验。 1. 数据集与数据划分：实验在三个标准的图像分类数据集上进行：CIFAR-10、CIFAR-100 和 Tiny-ImageNet。为了模拟真实世界的数据异构性，采用了两种主流的非独立同分布数据划分方式：狄利克雷分布（Dirichlet distribution，参数 α 控制异构程度，α 越小越异构）和病理性划分（Pathological distribution，为每个客户端分配有限数量的类别，分配的类别数 c 越少越异构）。 2. 基线模型与训练设置：研究将 DFedHP 与多种先进的基线方法进行了对比，包括集中式联邦学习算法（FedAvg, FedPer, Ditto）和去中心化联邦学习算法（DFedAvg, DFedAlt）。此外，还测试了将 DFedHP 作为插件集成到其他 PFL 方法（如 DispFL）中的效果（即 DispFL+HP）。所有实验均使用 ResNet-18 作为骨干网络，客户端总数为 100，每个通信轮次的参与比例为 0.1，本地训练 epoch 数为 4。 3. 超网络结构：文中采用的超网络由两个线性层和激活函数组成。这种设计使得需要传输的参数数量远少于原始目标网络。在 ResNet-18 的配置下，每轮通信传输的参数数量从无超网络时的最大 43,666.97 KB 锐减至 5,321.06 KB，通信量减少了高达 87.81%。 4. 评估指标：主要评估指标包括： * 个性化测试精度：每个客户端在其本地测试集上的分类准确率。 * 通信成本：达成特定目标精度所需的通信轮次数，以及每轮通信传输的数据量。 * 收敛速度：测试精度随通信轮次增加的提升曲线。
主要结果通信成本大幅降低：实验数据显示，DFedHP 的核心优势在于显著降低了通信开销。如表3所示，每轮通信中每个客户端需要传输的数据量从基线 DFedAvg 的约 43.7 MB 减少到 DFedHP 的约 5.3 MB。假设每个客户端每轮与10个邻居通信，完成500轮通信，DFedHP 总共传输约50.75 GB数据，而基线方法至少需要传输418.23 GB，通信负担减轻了约87.8%。这直接证明了利用小规模超网络进行参数生成和聚合的有效性。
收敛速度显著提升：DFedHP 不仅减少了单次通信的数据量，还加速了模型的收敛。如图2的收敛曲线所示，在多种数据集和异构设置下，DFedHP 能够更快地达到更高的精度平台。表2的数据更具说服力：例如，在 CIFAR-100 数据集、病理性划分（c=20）的设置下，要达到85%的目标精度，DFedHP 仅需51个通信轮次，而基线 DFedAvg 需要84轮，收敛速度提升了约39.3%。这是因为超网络能够根据输入向量生成更贴近特定任务需求的模型初始化权重，从而优化了学习路径。
模型性能具有竞争力：如表1所示，在绝大多数实验设置下，DFedHP 取得的个性化测试精度均优于或与最先进的基线方法相当。例如，在 CIFAR-10 的狄利克雷分布（α=0.3）设置下，DFedHP 的精度为77.01%，比同属去中心化的基线 DFedAvg（73.96%）高出3.05个百分点。在异构性更强的设置下（如 α 更小或 c 更少），DFedHP 也展现了良好的鲁棒性，证明了其方法在应对数据异质性方面的有效性。
灵活的插件化集成能力：实验结果（表1中的 DispFL+HP 和 DFedAlt+HP）表明，DFedHP 的框架可以无缝集成到其他现有的 DPFL 算法中。这种集成在多数情况下能进一步提升这些算法的收敛速度和/或最终精度，同时保持其通信高效的优势，这证明了 DFedHP 设计的通用性和可扩展性。
消融研究与深入分析：图3展示的消融实验进一步验证了 DFedHP 的稳健性。 网络拓扑影响：DFedHP 在不同的通信拓扑结构（全连接、指数图、网格、环）下均能保持稳定的性能。实验结果与理论分析（谱隙分析）一致：拓扑越稀疏（如环），通信路径越少，但收敛边界可能变宽；拓扑越稠密，收敛性能越好，但通信成本增加。DFedHP 在其中取得了良好平衡。
超网络规模影响：研究探索了超网络参数数量占原始模型参数比例对精度的影响（图3b）。结果表明，存在一个“甜点”区域，超网络在保持较小规模的同时，仍能具备足够的表达能力来生成高质量的模型权重，实现性能与通信效率的最佳权衡。
客户端与邻居数量影响：实验还考察了客户端总数和每轮活跃邻居数量对算法的影响，证明了 DFedHP 在不同规模网络中的可扩展性。
理论收敛性保证：研究团队还从理论上分析了 DFedHP 的收敛性（定理1）。在合理的 Lipschitz 光滑性、有界方差和部分梯度多样性等标准假设下，证明了 DFedHP 能够以 O(1/√T) 的速率收敛到一个稳定点。收敛边界与数据的统计异质性（方差和梯度差异）相关，异质性越小，收敛边界越紧，这与直观认知相符。
结论与价值本研究的结论是，所提出的 DFedHP 框架成功地为去中心化个性化联邦学习提供了一种高效、灵活且性能优异的解决方案。
其科学价值在于：第一，创新性地将超网络引入 DPFL 场景，实现了模型训练复杂度与通信复杂度的解耦。客户端可以训练任意大的本地模型，但通信时只传输小得多的超网络参数，这为从根本上降低联邦学习通信开销开辟了新思路。第二，提供了一套完整的算法流程和理论分析框架，为后续相关研究奠定了坚实的基础。第三，通过部分个性化模型（卷积层共享、全连接层个性化）的设计，契合了深度神经网络特征提取的层次性原理，提高了资源利用效率。
其应用价值尤为突出：DFedHP 大幅降低的通信成本和加速的收敛速度，使其特别适用于资源受限、网络条件差或需要快速迭代更新的边缘计算场景，例如物联网设备、移动终端和分布式传感器网络。在这些场景中，带宽是稀缺资源，设备计算能力有限，DFedHP 能够在不牺牲模型个性化性能的前提下，极大提升联邦学习系统的实用性和部署可行性。同时，仅传输超网络参数而非完整模型，也增加了一层抽象屏障，有助于进一步保护用户隐私。
研究亮点核心方法创新：首次提出在去中心化联邦学习中使用超网络聚合来代替庞大的模型参数聚合，实现了通信成本的断崖式下降（最高减少87.81%），这是本研究最突出的贡献。
性能全面提升：该方案并非以牺牲性能换取效率。相反，在显著降低通信开销的同时，DFedHP 在多个数据集和异构设置下取得了更快的收敛速度和具有竞争力的模型精度，实现了“鱼与熊掌兼得”。
设计精巧且通用：算法采用“共享参数由超网络生成，个性化参数本地训练”的巧妙设计，符合模型特征提取的规律。其插件化的架构使其能够轻松增强现有 DPFL 方法的效能，展现了出色的通用性和可扩展性。
验证全面深入：研究不仅进行了广泛的实验对比，还包含了详细的消融分析、不同网络拓扑的测试以及理论收敛性证明，工作扎实，结论可信。
其他有价值内容文章还简要回顾了去中心化联邦学习、个性化联邦学习以及超网络相关的研究进展（Related Work），清晰地将本研究定位在现有工作的交叉点和前沿。此外，研究得到了中国国家自然科学基金的资助，并遵循了规范的学术贡献声明和参考文献格式。算法1以伪代码形式清晰地列出了 DFedHP 的完整步骤，便于其他研究者复现和应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问