分享自:

基于大小邻居路径识别的异构图神经网络分类聚合算法

期刊:applied soft computingDOI:10.1016/j.asoc.2024.112656

这篇文档属于 类型a(单篇原创研究论文报告)。以下是针对该研究的学术报告:


《Applied Soft Computing》期刊2025年刊载的异质图神经网络分类聚合算法研究

一、作者及机构

本研究由Yufei ZhaoShiduo WangHua Duan(通讯作者)合作完成,三位作者均来自山东科技大学数学与系统科学学院(College of Mathematics and Systems Science, Shandong University of Science and Technology)。论文标题为《LSPI: Heterogeneous Graph Neural Network Classification Aggregation Algorithm Based on Size Neighbor Path Identification》,发表于2025年的《Applied Soft Computing》(Volume 171, Article 112656)。论文代码已开源在GitHub(https://github.com/liuhua811/lspia)。


二、研究背景与目标

科学领域与背景
该研究聚焦于异质图神经网络(Heterogeneous Graph Neural Networks, HGNNs)的节点分类任务。异质图(HINs)广泛存在于现实世界(如学术网络、社交网络),其特点是包含多种节点类型和复杂语义关系。现有HGNNs多依赖元路径(meta-paths)捕捉语义信息,但忽视了不同元路径邻居数量的显著差异:某些路径(如长路径或高频关系)会引入大量噪声节点,导致模型性能下降。

研究动机与目标
作者发现,现有模型(如HAN)在处理邻居数量差异大的元路径时准确率下降(例如ACM数据集中PAP与PSP路径的邻居数量相差75倍)。因此,本研究提出LSPI算法,核心目标为:
1. 识别噪声路径:通过量化元路径邻居数量的差异,将路径分为大邻居路径(Large Neighbor Paths)小邻居路径(Small Neighbor Paths)
2. 选择性聚合:对大邻居路径中的节点基于拓扑和特征相似性过滤噪声,保留高相关性邻居。


三、研究流程与方法

LSPI算法分为三个核心模块

  1. 路径判别器(Path Discriminator, PD)

    • 输入:异质图及预定义元路径集合。
    • 处理
      • 计算每条元路径的节点度总和(公式1),统计相对差异百分比(公式3)。
      • 根据超参数τ划分路径(公式4-5)。例如ACM数据集中,τ=30时PAPAP和PSPSP被归类为大邻居路径。
    • 输出:划分后的路径集合。
  2. 路径内聚合(Intra-Path Aggregation)

    • 大邻居路径处理
      • 计算转移概率(公式6):基于邻接矩阵和度数矩阵,衡量节点间的拓扑关联强度。
      • 计算特征相似性(公式8):通过L2归一化后的节点特征点积量化特征相关性。
      • 双重过滤:选择转移概率和特征相似性乘积最高的Top-T邻居(公式9-10)。实验设定T=500。
    • 小邻居路径处理:直接使用图卷积(公式13)聚合子图特征。
  3. 子图级注意力聚合(Subgraph-Level Attention)

    • 通过注意力机制(公式14-16)融合不同子图的嵌入向量,生成最终节点表示(公式17)。

实验设计
- 数据集:ACM(论文-作者-主题)、IMDB(电影-导演-演员)、Yelp(商家-用户-服务等级)、DBLP(论文-作者-会议)。
- 对比基线:HAN、MAGNN、HPN等7种模型。
- 评估任务:节点分类(Micro-F1/Macro-F1)和聚类(NMI/ARI)。


四、主要结果

  1. 分类性能提升

    • 在ACM数据集上,LSPI比HAN的Macro-F1提高1.19%(94.17% vs 92.98%);在IMDB数据集上提升3.86%(63.20% vs 59.34%)。
    • 尤其在大邻居路径(如PAPAP)上,LSPI逆转了HAN的性能下降趋势(提升0.92% vs HAN下降2.05%)。
  2. 聚类效果优势

    • ACM数据集的ARI达到0.7883,比IE-HGCN提升44%。Yelp数据集的NMI(0.6791)和ARI(0.6994)显著优于基线。
  3. 消融实验验证

    • 移除大邻居路径模块(LSPI-w/o-L)导致Yelp性能下降约2%,验证了噪声过滤的必要性。
  4. 参数敏感性分析

    • 邻居数T=300~500时模型最优,超过500会因噪声增加降低性能。路径划分阈值τ需根据数据集调整(如IMDB需τ=200)。

五、结论与价值

科学价值
1. 理论创新:首次系统研究元路径邻居数量差异对HGNNs的影响,提出路径分类与选择性聚合框架。
2. 方法创新:融合拓扑概率与特征相似性的双重过滤机制,有效抑制噪声干扰。

应用价值
- 适用于需处理大规模异质图的场景(如推荐系统、学术网络分析)。代码开源促进工业界应用。


六、研究亮点

  1. 问题发现的原创性:揭示了元路径邻居数量差异与模型性能的关联,并通过实验验证噪声影响(图3)。
  2. 算法的鲁棒性:在节点随机删除实验中,性能下降幅度显著低于HAN(图8)。
  3. 工程友好性:提出以中位数邻居数(d_med)作为T的参考值,简化调参流程(表8)。

七、其他贡献

  • 非参数检验:Wilcoxon检验表明LSPI在统计显著性上优于多数基线(表10)。
  • 计算效率:单个训练周期耗时0.7355秒(ACM数据集),内存占用1.38GB,平衡了性能与效率(表9)。

(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com