本文介绍一篇题为《LLM-Empowered Few-Shot Node Classification on Incomplete Graphs with Real Node Degrees》的学术研究论文。该研究由 Yun Li, Yi Yang, Jiaqi Zhu, Hui Chen, Hongan Wang 等作者完成,其所属机构均为中国科学院软件研究所。该论文发表于2024年10月21日至25日在美国爱达荷州博伊西举行的第33届ACM信息与知识管理国际会议(CIKM ‘24)的会议论文集上,并已获得开放获取支持。
研究背景与动机 本研究的核心科学领域是图机器学习(Graph Machine Learning),特别是针对图结构数据的节点分类(Node Classification)任务。图神经网络(Graph Neural Networks, GNNs)在处理社交网络、引文网络等图结构数据方面取得了显著成功,但其性能严重依赖于一个基本假设:图结构是完整的,并且拥有充足的节点标签数据。然而,现实世界中的图数据往往是不完整的。这种不完整性可能源于隐私限制、资源限制或数据收集的困难,具体表现为边(Edge)的缺失、节点(Node)的缺失以及节点标签(Label)的缺失。现有的研究大多关注于边或特征的补全,而忽略了节点缺失这一普遍情况。更重要的是,在许多现实场景中(如社交网络中用户的关注者数量、引文网络中论文的参考文献数量),节点的真实度数(Real Node Degree)——即节点在完整情况下应有的连接数——是相对容易获取的。这些真实度数蕴含了图结构完整性的重要信息,但现有方法并未充分利用这一信息。
因此,本研究旨在解决一个新颖且具有实际意义的问题:在具有真实节点度数信息的不完整图上,进行少样本(Few-Shot)节点分类。该问题面临两大挑战:1)如何在不过度依赖大量数据收集资源的情况下,补充缺失的节点和边;2)如何在标签极其稀缺(少样本甚至零样本)的条件下,对不完整图进行有效的节点分类。为解决这些问题,研究团队提出了一种名为 LLMDGCN 的新型模型,它巧妙地结合了大语言模型(Large Language Models, LLMs)的语义理解能力和真实节点度数信息。
研究方法与工作流程 LLMDGCN模型包含两个核心模块:语言模型生成模块(LM Generation Module)和迭代预测模块(Iterative Prediction Module)。其整体架构是一个迭代优化的过程,旨在逐步补全缺失的节点、标签和边,并最终提升节点分类的准确性。
第一模块:语言模型生成模块 此模块利用大语言模型(如GPT-3.5-turbo)强大的语义生成和理解能力,对缺失的节点和标签进行初步补充。 1. 生成虚拟节点:针对图中每个类别,研究团队设计特定的提示词(Prompt),要求LLM生成属于该类别的虚拟节点文本。例如,对于引文网络,提示词为“请生成一篇属于[类别名称]的论文,包括标题和摘要”。对于社交网络,则是生成用户的个人简介和帖子。这些生成的文本虽然不是真实实体,但包含了LLM从海量语料中学习到的、与类别相关的丰富领域知识。每个类别生成固定数量(如20个)的虚拟节点,并将其文本和对应类别标签加入训练集。 2. 生成伪标签:对于图中已有的节点,利用其原始文本(如论文标题和摘要),设计另一个提示词,要求LLM直接预测其所属类别并给出置信度分数。然后,从每个类别中选择置信度最高的一部分节点(如15个)及其伪标签加入训练集。这一步为后续训练提供了额外的监督信号。 3. 获取节点嵌入:使用预训练语言模型(如Sentence-BERT)将原始节点文本和生成的虚拟节点文本编码为初始的特征向量(Embedding),作为后续图神经网络处理的输入。 经过此模块,原始的、不完整的图被初步补充了虚拟节点和部分节点的伪标签,形成了一个扩增后的图结构和训练集。
第二模块:迭代预测模块 这是模型的核心,它迭代地训练一个图卷积网络(Graph Convolutional Network, GCN)和一个边预测器(Edge Predictor),两者相互促进,逐步优化图结构和节点分类结果。 1. 图卷积网络(GCN)训练与伪标签生成:将经过初步补全的图(包含原始节点、虚拟节点和现有边)和扩增的训练集(包含真实标签节点、虚拟节点、高置信度伪标签节点)输入到一个GCN中。GCN学习节点特征和结构信息,输出所有节点的预测概率分布(即伪标签矩阵)。训练时,采用加权交叉熵损失函数,其中伪标签节点的权重为其置信度,以减少噪声影响。在每次迭代中,从GCN输出的伪标签矩阵中,为每个类别选取置信度高于阈值(如0.9)的若干节点(如10个),将其作为高置信度伪标签节点加入下一轮的训练集。 2. 边预测器(Edge Predictor)补全缺失边:这是本研究的创新关键点。边预测器的目标是利用节点的真实度数和类别间连接概率来恢复缺失的边。其工作流程如下: * 计算类别间概率矩阵:基于当前GCN输出的伪标签矩阵(对于有真实标签的节点,则使用真实标签),计算一个“类别间概率矩阵”。该矩阵的每个元素H_ij表示在图中,一个属于类别i的节点连接到类别j的节点的概率。这个矩阵刻画了图中不同类别节点间的连接倾向。 * 计算缺失边数量:对于每个节点,已知其真实度数(即它本应有多少条边)。同时,可以统计它在当前(不完整)图中与各类别节点已有的连接数。通过真实度数和类别间概率矩阵,可以估算出该节点“应该”连接到各类别节点的理想边数。用理想边数减去已有边数,就得到了该节点需要连接到各类别节点的缺失边数量。 * 基于相似度恢复边:对于每个节点和每个目标类别,计算该节点与目标类别中所有未直接相连节点的文本嵌入(来自第一模块)的余弦相似度。然后,根据上一步计算出的、需要连接到该类别的缺失边数量,选择相似度最高且超过设定阈值(如0.7或0.8)的若干条边,将它们添加到图中。 3. 迭代优化:将边预测器补充的新边加入图中,形成一个结构更完整的更新图。然后,将这个更新后的图和扩增后的训练集再次输入GCN进行训练,得到更准确的伪标签。这些更准确的伪标签又被用于计算更可靠的类别间概率矩阵,从而指导边预测器恢复更合理的边。如此循环迭代,直到训练集不再扩大或达到最大迭代次数。最终,模型输出稳定的节点分类结果。
主要实验结果 研究团队在四个真实世界数据集上进行了广泛的实验:三个引文网络(Cora, Citeseer, PubMed)和一个社交网络(Religion)。他们设置了从零样本(0-shot)到10样本(10-shot per class)的不同少样本场景,并将LLMDGCN与多个基线模型进行了比较,包括经典的GCN、GAT,以及专门处理不完整图的T2-GNN和D2PT,还有利用LLM的LLMGNN和ENG模型。 1. 整体性能优势:实验结果表明,LLMDGCN在绝大多数情况下(尤其是在零样本和极少量样本场景下)优于所有基线模型。例如,在Cora数据集上,LLMDGCN在零样本下的准确率(76.20%)达到了其他基准模型在3样本场景下的性能。在Religion数据集上,其零样本准确率(60.22%)更是显著超越最佳基线,并达到了其他模型在4样本场景下的水平。这证明了结合LLM生成能力和真实度数信息进行图结构补全的有效性。 2. 对比分析:LLMDGCN的表现优于同样处理不完整图的T2-GNN和D2PT,这凸显了利用真实节点度数来指导边恢复的优势。同时,所有使用了LLM的方法(LLMGNN, ENG, LLMDGCN)在实验中均表现优异,说明了LLM在提供额外监督信号和增强图结构方面的积极作用。 3. 消融研究:通过系统性地移除模型的各个组件(如虚拟节点、LLM生成的伪标签、边预测器、迭代训练),研究验证了每个部分对最终性能的贡献。移除任一组件都会导致性能下降,证实了模型设计的完整性和必要性。特别地,边预测器和迭代训练机制被证明对性能提升有重要作用。 4. 参数分析:研究还分析了生成伪标签节点和虚拟节点的数量对性能的影响。结果显示,随着数量增加,性能先升后降,这是因为过多的低置信度伪标签会引入噪声,而LLM生成的虚拟节点多样性有限。因此,研究选择了平衡性能的最佳数量(伪标签每类15个,虚拟节点每类20个)。 5. 鲁棒性:LLMDGCN在五次实验中的标准差相对较低,表明了模型具有良好的鲁棒性。
研究结论与价值 本研究成功定义并解决了“在具有真实节点度数信息的不完整图上进行少样本节点分类”这一新问题。提出的LLMDGCN模型创新性地将大语言模型的语义生成/理解能力与真实节点度数信息相结合,通过一个包含LM生成模块和迭代预测模块的框架,有效地处理了节点、边和标签同时缺失的复杂情况。模型的核心贡献在于利用真实度数来量化每个节点的边缺失情况,并基于类别间连接概率和节点特征相似性进行精准的边恢复。 其科学价值在于:1)首次系统性地利用真实节点度数来解决不完整图学习问题,为图数据补全提供了新思路;2)提出了一种LLM与GNN协同工作的迭代框架,为少样本图学习开辟了新途径;3)通过严谨的实验在多个基准数据集上验证了方法的有效性和鲁棒性。 其应用价值在于:该方法可直接应用于现实世界中大量存在的不完整图数据,如社交网络分析、引文网络分类、推荐系统等,在这些标签获取成本高、图结构不完整的场景下,能够以极少的标注成本实现高性能的节点分类。
研究亮点 1. 问题新颖性:首次明确提出并系统研究“利用真实节点度数的不完整图少样本节点分类”问题,抓住了现实应用中数据不完整和标注稀缺的核心痛点。 2. 方法创新性:创新性地设计了LLMDGCN模型,其核心亮点在于边预测器。该模块创造性地利用“真实节点度数”和“类别间概率矩阵”来量化并恢复缺失的边,这是一种数据驱动且符合图结构统计规律的精巧设计。 3. 技术融合性:成功地将前沿的大语言模型(用于内容生成与理解)与传统图神经网络(用于结构学习)以及真实世界可获取的元信息(节点度数)深度融合,形成了一个强大的、端到端的解决方案。 4. 迭代优化框架:设计的GCN与边预测器交替迭代训练的框架,使得伪标签质量和图结构完整性在循环中相互促进、共同提升,最终收敛到更优解。
未来工作 作者在文末展望了未来的研究方向,包括:探索更优的提示词方法以利用LLM生成更多样化的虚拟节点和更准确的伪标签;进一步优化边预测器中真实节点度数的利用方式;尝试将真实节点度数信息直接融入GNN的消息传播过程,以进一步提升模型性能。