类型a
主要作者与研究机构及发表信息
该研究的主要作者包括李颖(Ying Li)、李琳琳(Linlin Li)、刘一军(Yijun Liu)和李倩倩(Qianqian Li),分别来自吉林大学计算机科学与技术学院、中国科学院科技战略咨询研究院以及中国科学院大学公共政策与管理学院。这篇论文题为“MAHE-IM: Multiple Aggregation of Heterogeneous Relation Embedding for Influence Maximization on Heterogeneous Information Network”,发表于《Expert Systems with Applications》期刊,文章编号为202 (2022) 117289,出版时间为2022年4月26日。
学术背景
本研究属于社会网络分析领域,重点关注异构信息网络(Heterogeneous Information Network, HIN)中的影响力最大化问题(Influence Maximization, IM)。传统的IM研究多集中于同构网络(Homogeneous Networks),但在现实世界中,异构网络更为普遍。例如,在学术合作网络中,不仅包含作者节点,还涉及论文和期刊节点,这些不同类型的节点及其复杂关系对影响力传播具有重要影响。现有的基于同构网络的IM方法未能充分考虑异构网络中的多种复杂关系和节点属性,因此在实际场景中的适用性有限。研究旨在开发一种新的深度学习算法——MAHE-IM,通过整合异构网络中的多种高阶结构和语义特征来解决IM问题。
研究流程
本研究主要包括以下四个步骤:
构建学术异构信息网络并设计多元路径(Metapaths)
研究从三个学术数据集(DBLP、ACM和PubMed)中提取了五个单一异构网络和两个异构互联网络,涵盖作者、论文和期刊节点及其关系。为了有效捕捉网络中的异构特性,研究设计了多个具有特定语义的多元路径。例如,长度为2的多元路径包括“A-P-A”(作者合著关系)和“A-J-A”(作者在同一期刊发表论文的关系),长度为3和4的路径则进一步扩展了这些语义关系。
基于多元路径的异构网络嵌入(Network Embedding)
研究采用了基于元路径随机游走(Metapath-based Random Walk)的网络嵌入方法,将异构网络中的节点映射到低维向量空间,同时保留网络的结构和语义信息。具体而言,使用了Metapath2Vec算法生成节点的嵌入表示,并通过加权机制整合不同长度的多元路径,以反映路径长度与节点间相关性的反比关系。
获取每个节点的最相关节点
在完成节点嵌入后,研究通过余弦相似度计算每个节点的最相关节点集合。为了综合考虑不同路径的影响,研究提出了一种加权机制,根据路径长度分配不同的权重,从而得到每个节点的综合相关节点集合。
选择影响力最大化的种子节点集
最后,研究根据节点的相关性得分和出现频率,选择最具影响力的种子节点集。具体而言,设置了相关性阈值(Relevancy Threshold)和种子节点集大小(Seed Set Size),并通过排序算法选出最具影响力的节点。
主要结果
1. 在单一异构网络上的表现
在独立的单一异构网络实验中,MAHE-IM算法在IC模型(Independent Cascade Model)和LT模型(Linear Threshold Model)下均表现出优于其他基线算法的性能。特别是在数据挖掘(DBLP)和机器学习(ACM)网络中,MAHE-IM显著优于DeepWalk-IM、Node2Vec-IM等基于同构网络嵌入的方法,以及GCN-IM、GAT-IM等基于图神经网络(Graph Neural Network, GNN)的方法。这表明MAHE-IM能够有效捕捉异构网络中的复杂关系。
在异构互联网络上的表现
在异构互联网络实验中,MAHE-IM同样表现出色,尤其是在ACM异构互联网络中,其扩散覆盖率显著高于其他基线算法。这验证了MAHE-IM在整合多种异构关系方面的优势。
种子节点集的特性分析
研究进一步分析了种子节点集的特性,发现MAHE-IM选择的种子节点并非单纯基于节点度数(Degree),而是综合考虑了异构关系和同构关系的重要性。这种加权机制使得MAHE-IM能够更准确地捕捉网络中的影响力传播模式。
参数调优与阈值选择
实验还探讨了迭代次数、种子节点集大小和相关性阈值对算法性能的影响。结果表明,适当的相关性阈值(如0.31)能够显著提高算法的扩散覆盖率,而过小或过大的阈值则会导致性能下降。
结论与意义
本研究提出了MAHE-IM算法,这是一种基于深度学习的异构网络影响力最大化方法,能够有效整合多种异构关系和高阶语义特征。研究的意义在于:
1. 科学价值:MAHE-IM为异构信息网络中的影响力最大化问题提供了一种新的解决方案,弥补了现有方法在处理复杂异构关系时的不足。
2. 应用价值:该算法可广泛应用于病毒式营销、信息监控、谣言控制等领域,为实际问题提供技术支持。此外,研究还开发了一个在线Web服务器(https://mahe-im.com/),方便用户提交自己的异构网络并获取影响力排名结果。
研究亮点
1. 新颖性:MAHE-IM首次提出了一种基于多元路径加权机制的异构网络嵌入方法,能够有效整合多种异构关系。
2. 方法创新:研究结合了深度学习、网络嵌入和图神经网络技术,提出了一种综合性的影响力最大化框架。
3. 实验全面性:研究在多个学术数据集上进行了广泛的实验,验证了算法的优越性和鲁棒性。
其他有价值内容
研究团队还开源了代码和数据集,为后续研究提供了宝贵的资源。此外,研究提出的加权机制和相关性阈值选择方法也为其他领域的异构网络分析提供了参考。