用于协作图学习的异质专家混合模型：一种结合全局与局部图表示的创新框架

分享自：
用于协作图学习的异质专家混合模型：一种结合全局与局部图表示的创新框架

期刊:Neural NetworksDOI:10.1016/j.neunet.2025.108503
由南开大学计算机学院的周功海、杨凯旋、王嘉泰、卢正贤、李涛以及来自海河实验室ITAI的徐志伟共同完成的研究论文《MOGL: A Mixture of Heterogeneous Experts for Collaborative Graph Learning》于2025年12月19日在线发表于学术期刊 Neural Networks 的197卷。这是一篇报告单篇原创性研究的学术论文。
本研究的主要学术背景聚焦于图神经网络（Graph Neural Networks， GNNs）领域。图神经网络作为处理图结构数据的主流方法，已在推荐系统、交通流量预测、分子属性预测等多个应用场景中取得显著成功。然而，现有研究指出，真实世界的图数据往往呈现出复杂的局部异质性（local heterogeneity），即图中同时存在局部同配（相连节点类别相似）和局部异配（相连节点类别不同）的区域。标准的GNN模型虽然在捕捉图的全局结构信息方面表现出色，但在处理这种复杂的局部异构模式时存在局限性。同时，近年来兴起的专家混合（Mixture of Experts, MoE）范式为灵活整合全局与局部信息提供了有前景的方向，但现有基于MoE的图模型通常依赖于独立的门控（gating）机制，这种机制需要在预测准确性和计算效率之间做出不利的权衡。为了应对这些挑战，本研究旨在开发一个新的框架，以更好地捕获图数据的局部异质性，同时克服现有MoE模型在门控机制上的局限。
本研究的目标是提出一个名为MOGL（异构专家协作图学习混合模型）的新型框架。该框架旨在通过一个协同的双专家架构，将捕捉全局信息的标准GNN与一个专门设计用于建模局部复杂非线性关系的轻量级本地专家相结合，并辅以创新的基于置信度的门控机制和协作训练范式，以实现在保持高效的同时，提升模型在各种图数据上的学习性能。
本研究的工作流程详细而系统，主要包含以下几个核心环节：
第一， 总体框架设计。 MOGL框架包含三个核心组件：一个本地专家、一个全局专家以及一个连接二者的置信门控模型。输入图数据并行输入到本地专家和全局专家中。本地专家被设计为图柯尔莫哥洛夫-阿诺德同构网络（Graph Kolmogorov-Arnold Isomorphism Network， GKain），其核心任务是深入挖掘和建模节点局部邻域内复杂的非线性关系。全局专家则可以是任意一种标准的GNN模型（如GCN、GraphSAGE等，在实验中选用的是H2GCN），负责捕获图的全局拓扑结构信息。GKain为每个节点生成一个表征向量h_v，该向量随后被送入门控模型。
第二， 本地专家GKain的设计与实现。 这是本研究的一个方法学创新点。GKain的设计灵感来源于柯尔莫哥洛夫-阿诺德网络（KAN）理论，旨在为基于聚合的GNNs提供理论上最高的判别能力。与传统的多层感知机（MLP）使用固定激活函数不同，GKain的核心是使用可学习的一维样条函数作为其基本计算单元，这些样条函数充当了“可学习的激活函数”。在节点嵌入传播规则上，GKain遵循一个注入式（injective）聚合方案：第l层节点v的表示h_v(l)由上一层的自身表示h_v(l-1)与其所有邻居节点表示之和进行组合，再经过一个KAN Layer（记为ψ(l)）的非线性变换得到。其中，自身表示的权重(1+ε(l))是一个可学习参数，确保每个节点及其邻域的多重集组合具有唯一性。通过多层堆叠，GKain最终为每个节点输出一个能够精细反映其局部结构特征的嵌入表示。这种设计使得GKain在小样本或复杂数据分布场景下，相比传统MLP具有更优的目标函数拟合能力。
第三， 置信门控模型的设计。 为了解决传统独立门控机制的效率-精度权衡问题，MOGL提出了一个创新的基于置信度的门控模型。该模型并非直接使用原始图数据作为输入，而是巧妙地利用了GKain学习到的节点表征。具体流程如下：对于每个节点v，将其GKain输出的最终嵌入h_v通过一个线性层和Softmax函数，转换成一个预测类别概率分布p_v。然后，门控模型通过计算该概率分布的（负）熵值来衡量GKain对该节点预测的“分散度”或不确定性。分散度越低（熵越小），表明GKain对该节点的预测越确定、置信度越高。最后，一个轻量级神经网络（在实现中是一个小型GKain）将这个熵值映射为一个节点级别的置信度分数C_v（范围在0到1之间）。这个分数C_v是动态的、针对每个节点单独计算的。
第四， 专家模型的协作训练。 为了促进本地专家（GKain）和全局专家（H2GCN）之间的知识互补与协同，研究者设计了一个协作训练范式。整个训练目标由两部分损失加权组成：置信度加权的交叉熵损失（L_ce）和协作训练损失（L_co）。置信度加权交叉熵损失作用于有标签的节点集，旨在让两个专家都学习真实的标签分布，但各自的损失贡献由门控分数C_v动态调节。对于某个节点，若C_v高（GKain置信度高），则训练时更强调GKain的预测与真实标签的匹配；反之则更强调全局专家。协作训练损失则作用于无标签的节点集，其核心思想是让两个专家相互学习对方的“软目标”。软目标通过对专家输出的logits进行温度缩放（Temperature Scaling）得到，包含了比硬标签更丰富的类别间关系信息。具体地，损失鼓励全局专家去拟合GKain生成的软目标，同时也鼓励GKain去拟合全局专家生成的软目标，且权重同样与置信度C_v相关（但应用方向相反）。最终的总损失L是这两部分损失的线性组合（由超参数α控制）。这种设计使得模型不仅能从标注数据中学习，还能在无标签数据上通过专家间的知识蒸馏（Knowledge Distillation）实现泛化能力的提升。论文中还提供了理论证明，表明这种协作训练方式可以提升模型的泛化性能。
第五， 推理阶段。 在模型训练完成后，进行预测时，MOGL采用动态加权融合的方式产生最终输出。对于待预测节点v，GKain和全局专家分别独立产生预测概率分布p_v和p‘_v。然后，利用训练好的门控模型根据GKain的预测p_v计算出该节点的置信度分数C(p_v)。最终的预测概率是两者的加权平均：y_hat = C(p_v) * p_v + (1 - C(p_v)) * p‘_v。这样，模型能够根据每个节点的具体情况，自适应地决定更依赖哪个专家的判断。
本研究的主要结果通过一系列详尽的实验得以验证：
实验在两个大类、共六个基准数据集上进行，包括同配图（Flickr， ogbn-products， ogbn-arxiv）和异配图（Penn94， Pokec， Twitch-gamer），全面评估了MOGL的性能。实验结果表明，MOGL在绝大多数数据集上都取得了最先进（state-of-the-art）或极具竞争力的性能。例如，在ogbn-products数据集上达到78.91%的准确率，优于对比的基线模型；在异配图Penn94上达到84.98%的准确率，显著超过了作为其全局专家基础的H2GCN模型（82.77%）。这些结果有力地证明了MOGL框架在处理不同类型图结构数据方面的有效性和鲁棒性。
超参数敏感性分析 揭示了协作训练机制的关键作用。当超参数α从1.0（无协作）向0（强协作）调整时，模型在所有数据集上的性能呈现明显上升趋势，表明协作训练损失L_co对于提升模型泛化能力至关重要。最优的α值通常在0.6左右，说明适度的协作强度能在专家独立学习和知识共享之间取得最佳平衡。同时，用于生成软目标的温度系数τ的分析显示，适中的τ值（如0.7）能最有效地传递专家间的知识。
消融研究 提供了对MOGL设计有效性的深入洞察。首先，移除任何一个专家（仅使用GKain或仅使用H2GCN）都会导致性能显著下降，这证实了双专家协同的必要性。其次，将本地专家GKain替换为MLP或GCN的对比实验非常具有启发性：尽管单独的GCN模型性能远强于单独的GKain，但当它们作为本地专家与H2GCN全局专家组合时，使用GKain的MOGL版本性能始终优于使用GCN作为本地专家的版本。这强有力地证明了GKain的价值在于其“互补性”——它擅长捕捉那些标准GNN可能忽略的、特殊的局部模式，而非单纯追求个体性能最强。此外，尝试构建同质专家组合（如两个H2GCN）的实验发现，其性能提升远小于异构的GKain-H2GCN组合，甚至可能因功能冗余而导致收益递减，这从反面印证了MOGL采用异构专家架构的优越性。
门控模型行为分析 通过可视化训练过程中置信度分数C_v的分布演化，展示了MOGL的动态分工机制。在例如ogbn-products数据集上，随着训练进行，置信度分布从集中在低值（初期依赖全局专家）逐渐演变为双峰分布（一个峰在低值，一个峰在高值），表明模型学会了将节点分类，分别分配给最擅长的专家处理，实现了自动化的“分工协作”。
效率与稳定性分析 表明MOGL在取得高性能的同时，保持了良好的实用性。与其他复杂的MoE图模型（如GraphMoE, Mowst）相比，MOGL在参数量、训练时间、推理时间和GPU内存占用上都具有明显优势。更重要的是，MOGL的训练过程曲线平滑稳定，而一些对比模型则表现出剧烈的波动，这凸显了MOGL基于置信度门控和协作训练的设计带来了更可靠的训练动态。
本研究的结论是，研究者成功提出了MOGL这一新颖的异构专家协作图学习框架。该框架通过集成专门化的GKain本地专家与通用的全局GNN专家，并辅以创新的置信门控和协作训练机制，有效克服了现有GNN在捕捉局部异质性以及现有MoE图模型在门控效率上的局限性。大量实验证明，MOGL在同配和异配图上均能取得最先进的性能，同时保持了较高的计算效率和训练稳定性。
本研究的意义和价值体现在多个层面。在科学价值上，它推动了图神经网络架构的设计，特别是为MoE范式在图领域的应用提供了新的思路，强调了专家异构性和协作训练的重要性，而非简单堆砌同质模型。方法学上，首次将KAN的思想引入图神经网络，设计了GKain，为图表示学习提供了一种新的、具有强表达力和一定可解释性的构建模块。所提出的基于输出置信度的门控机制，为动态融合多模型预测提供了一个高效且可靠的方案。在应用价值上，MOGL框架具有良好的通用性和可扩展性，其全局专家可以替换为任何现有的GNN，使其能够便捷地嵌入到各种图学习任务中，提升模型在复杂真实图数据上的预测精度和鲁棒性，对于社交网络分析、推荐系统、生物信息学等领域具有潜在的应用前景。
本研究的亮点突出。首先，最重要的发现是异构专家协同的有效性，实验明确表明功能互补的专家组合（GKain + GNN）优于最强的单一专家或同质专家组合。其次，研究方法的新颖性体现在三个方面：1) 设计了全新的GKain作为本地专家，将可学习样条激活函数引入图神经网络；2) 提出了创新的、利用本地专家输出置信度进行动态加权的门控机制，避免了传统门控的计算开销；3) 设计了包含相互蒸馏的协作训练范式，促进了专家间的知识迁移。最后，研究目标的特殊性在于，它并非追求单一指标的最优化，而是致力于在模型性能（精度）、计算效率和训练稳定性之间取得一个更优的、更实用的平衡，这通过全面的对比实验和效率分析得到了充分展示。
此外，论文还提供了源代码（GitHub链接），确保了研究的可复现性，并为后续研究奠定了基础。附录中给出了GKain模型详细的超参数配置，增加了方法的可操作性。这些内容共同构成了这项研究完整而有力的学术贡献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问