迈向知识图谱推理的基础模型

分享自：
迈向知识图谱推理的基础模型

期刊:ICLR
迈向知识图谱推理的基础模型：ULTRa 方法研究
一、 研究作者、机构与发表信息
本研究由来自英特尔AI实验室（Intel AI Lab）的Mikhail Galkin、Hesham Mostafa，以及来自蒙特利尔学习算法研究所（Mila）、蒙特利尔大学（University of Montréal）和蒙特利尔高等商学院（HEC Montréal）的Xinyu Yuan、Jian Tang、Zhaocheng Zhu共同完成。该研究以题为《Towards Foundation Models for Knowledge Graph Reasoning》的论文形式，发表于2024年的国际学习表征会议（ICLR 2024）。
二、 研究背景与目标
本研究属于人工智能领域，具体聚焦于知识图谱（Knowledge Graph， KG）的表示学习与推理。知识图谱以三元组（头实体，关系，尾实体）的形式存储结构化知识，广泛应用于问答系统、推荐系统、精准医疗和材料科学等领域。
当前，自然语言处理和计算机视觉领域已成功发展出大型基础模型（Foundation Models， FMs），如BERT、GPT-4等。这些模型通过在大量数据上进行预训练，学习可迁移的通用表征（如词汇标记），从而能够对任何新的文本或视觉输入进行推理。然而，知识图谱的表示学习尚未充分受益于这种“预训练-微调”的范式。核心挑战在于，不同知识图谱通常拥有互不重叠的实体和关系词汇表。传统的知识图谱嵌入模型是转导式（Transductive）的，为特定图谱的特定实体和关系学习静态嵌入，无法泛化到新实体，更不用说新关系。近年来出现的归纳式（Inductive）方法虽然能泛化到包含新实体的图谱，但其前提是关系词汇表必须固定，因此仍然无法迁移到具有全新关系集的图谱上。
本研究的主要目标是探索并学习能够跨越具有任意实体和关系词汇表的知识图谱的可迁移不变性。如果能够利用和学习这种不变性，将使得为知识图谱推理构建基础模型成为可能：即一个在单个图谱（或几个图谱）上预训练的模型，能够以零样本（Zero-shot）方式迁移到任何具有完全不同关系集和关系模式的新、未见过的图谱上进行推理。
基于两个关键观察，研究者提出了解决方案：(1) 即使不同数据集中的关系各不相同，但关系之间的交互模式可能是相似且可迁移的；(2) 初始的关系表征可以基于这种交互进行条件化构建，从而绕过对任何输入特征的需求。为此，本研究提出了名为ULTRa（Unified, Learnable, and Transferable Graph Representations）的方法，旨在学习通用、可迁移的图谱表征。
三、 研究方法与流程
ULTRa 的核心思想是将关系本身也表示为图结构（关系图）上的函数，通过捕捉关系之间的交互模式来学习关系的条件化表征，从而实现对任意新图谱的零样本归纳推理。其工作流程主要包含三个步骤，针对一个给定的查询（头实体h，查询关系q， ?）在原始图谱G上执行：
1. 关系图构建 * 过程：给定原始知识图谱 G = (V, R, E)，其中V是实体集，R是关系集，E是三元组集合。ULTRa 首先应用一个“提升”函数，构建一个关系图 Gr = (R, R_fund, Er)。在这个图中，每个节点对应原始图谱中的一个独特关系类型（包括其逆关系）。边 Er 表示原始图谱中关系之间的交互。 * 关键创新：研究者定义了四种核心的、基础的关系间交互类型 R_fund，它们独立于任何具体的图谱词汇表： * 尾到头（Tail-to-Head, t2h）：关系r1的尾实体同时是关系r2的头实体。 * 头到头（Head-to-Head, h2h）：两个关系共享同一个头实体。 * 头到尾（Head-to-Tail, h2t）：关系r1的头实体同时是关系r2的尾实体。 * 尾到尾（Tail-to-Tail, t2t）：两个关系共享同一个尾实体。 * 技术实现：这四种交互对应的邻接矩阵可以通过高效的稀疏矩阵乘法一次性计算得到，确保了可扩展性。
2. 条件化关系表征学习 * 过程：给定查询关系 q 和上一步构建的关系图 Gr，ULTRa 的目标是获得 Gr 中所有节点（即原始图谱的所有关系）的条件化表征 R_q ∈ R^{|R|×d}，这些表征以查询关系 q 为条件。 * 方法：通过在关系图 Gr 上应用带有标记技巧（Labeling Trick）的图神经网络来实现条件化。具体而言，使用一个指示函数初始化关系图 Gr 中的节点：将对应查询关系 q 的节点标记为全1向量，其他节点标记为零向量。然后，一个称为 GNN_r 的GNN（基于NBFNet架构，使用DistMult消息函数和求和聚合）在这个标记后的关系图上进行消息传递。GNN_r 中唯一可学习的参数是四种基础交互类型 R_fund 的嵌入、每层的线性更新函数以及可选的层归一化参数。 * 意义：由于该方法不学习任何图谱特定的实体或关系嵌入，也不需要任何输入实体或关系特征，因此可以为任何多关系图谱生成关系表征。每个不同的查询关系 q 都会产生一个独特的条件化关系表征矩阵 R_q，用于下游的实体级推理。
3. 实体级链接预测 * 过程：在获得条件化关系表征 R_q 后，ULTRa 可以适配任何现成的、仅需要关系特征的归纳式链接预测器（如NBFNet、RED-GNN）来执行最终的链接预测任务。研究中修改了另一个NBFNet实例（称为 GNN_e，在实体级别操作）来利用这些每查询特定的关系表征。 * 方法：首先，使用 R_q 中对应于查询关系 q 的向量来初始化查询中的头实体 h，其他实体初始化为零向量。在 GNN_e 的每一层，通过一个2层MLP函数 g(·) 将基础关系表征 R_q 转换为该层特定的关系表征。然后进行标准的消息传递、聚合和更新。最后，通过一个MLP将节点状态映射为得分，表示该节点作为查询（h, q, ?）尾实体的可能性。 * 训练：ULTRa 通过最小化正负三元组的二元交叉熵损失进行训练，可以在任何多关系图谱或图谱混合上进行训练，得益于其归纳式和条件化的表征能力。
四、 主要实验结果与分析
研究在57个不同的知识图谱上进行了广泛的链接预测实验，以评估ULTRa作为知识图谱推理基础模型的潜力。这些图谱分为三类：转导式数据集（16个）、仅新实体的归纳式数据集（18个）、以及同时包含新实体和新关系的完全归纳式数据集（23个）。主要实验设计围绕几个核心问题展开：
1. 零样本推理能力 * 结果：ULTRa 在三个图谱（FB15k-237, WN18RR, CoDEx-medium）的混合上进行预训练后，直接在其余54个未见过的图谱上进行零样本推理测试。 * 数据支持：平均来看，在51个有基线结果的图谱上，零样本ULTRa的平均MRR（Mean Reciprocal Rank）达到0.395，超过了在这些特定图谱上专门训练的强基线模型（平均MRR 0.344）约15%。在某些较小的归纳图谱上，性能提升尤为显著，例如在FB-25和FB-50数据集上，零样本性能比基线高出近3倍（相对提升291%和289%）。 * 逻辑关系：这一结果直接证明了ULTRa通过捕捉关系间交互模式（关系图）所学习到的表征具有强大的跨图谱可迁移性，能够有效应对新实体和新关系的挑战，初步实现了基础模型“一次预训练，多处零样本推理”的目标。
2. 微调带来的性能提升 * 结果：在零样本推理的基础上，进一步在每个目标图谱的训练集上对预训练的ULTRa进行短暂的微调。 * 数据支持：微调后，ULTRa在54个图谱上的平均MRR进一步提升至0.408，相对于零样本版本有约10%的相对提升，并且整体上超越了基线模型。微调对于较大的转导式图谱效果更明显，这有助于模型适应与预训练图谱不同的图规模。 * 逻辑关系：微调实验表明，ULTRa不仅具有良好的零样本泛化能力，还能通过少量目标领域的样本快速适应，获得更优的性能。这符合基础模型“预训练+轻量微调”的高效应用范式。
3. 与从头训练模型的对比 * 结果：为了评估预训练的价值，研究还比较了单个预训练ULTRa模型（零样本及微调后）与在每个图谱上从头独立训练的ULTRa模型（相同架构）的性能。 * 数据支持：平均而言，单个预训练ULTRa模型的零样本性能与在每个图谱上分别从头训练的模型性能（平均MRR 0.393）相当。而在微调后，预训练模型的平均性能（0.408）甚至超过了分别训练的模型。 * 逻辑关系：这一对比强烈支持了预训练的有效性。一个单一的预训练模型能够达到与众多专用模型相媲美甚至更优的性能，同时极大地减少了总体计算成本和资源消耗，凸显了其作为基础模型的效率和潜力。
4. 消融研究与分析 * 预训练图谱数量的影响：实验发现，当预训练混合图谱数量从1个增加到3个时，零样本归纳推理性能显著提升；但继续增加至8个图谱时，性能趋于饱和。这表明模型容量和训练数据多样性之间存在平衡点。 * 条件化关系表征的关键性：通过消融实验移除了关系图中的四种边类型（使其变为同质图），并尝试了类似INGRAM的无条件GNN编码器（使用随机或全1初始化节点特征）。结果显示，这些变体模型的预训练性能和零样本泛化能力大幅下降（例如，MRR相对下降达48%）。这证实了关系图结构和条件化表征学习对于实现可迁移推理至关重要。
五、 研究结论与价值
本研究提出了ULTRa，一种通过学习基于关系交互的条件化表征来实现知识图谱通用、可迁移表示学习的方法。它向构建知识图谱推理的基础模型迈出了重要一步。ULTRa使得无需任何输入特征即可在任何多关系图谱上进行训练和推理成为可能。
其科学价值在于首次系统性地探索并验证了通过关系图捕捉跨图谱不变性，以实现对任意新图谱（包含新实体和新关系）进行零样本归纳推理的可行性。它为解决知识图谱表示学习中的词汇表迁移难题提供了一个新颖且有效的框架。
其应用价值显著：一个单一的预训练ULTRa模型可以替代大量为特定图谱定制的模型，降低部署和维护成本。其“零样本泛化+轻量微调”的模式非常适合实际应用中图谱频繁更新或领域多样的场景，例如跨不同领域（如医疗、电商、学术）的知识融合与推理。
六、 研究亮点
核心创新：提出了“关系图”的概念，将关系间的四种基础交互（h2h, t2t, h2t, t2h）作为可迁移的不变性进行建模，并基于此生成条件化的关系表征，这是实现全归纳推理（新实体+新关系）的关键。
强大的零样本泛化能力：在57个不同规模和领域的图谱上验证了单个预训练模型卓越的零样本跨域推理性能，平均性能超越特定训练的强基线，为知识图谱基础模型提供了实证依据。
方法通用性与灵活性：ULTRa本身是一个表征学习框架，其生成的关系表征可以适配多种现有的归纳式链接预测器（如NBFNet），具有良好的兼容性和可扩展性。
效率与实用性：模型参数量小（仅17.7万），且微调收敛快（1000-2000步），兼顾了性能与效率，具备实际应用的潜力。
七、 其他有价值内容
伦理与可复现性声明：论文包含了关于基础模型可能被滥用的伦理考量，也强调了其降低总体计算成本和碳足迹的积极意义。作者提供了完整的代码、超参数和数据集细节，确保了研究的可复现性。
广泛的基准测试：研究建立了一个涵盖57个数据集的庞大评估基准，涵盖了转导、归纳（实体）、归纳（实体+关系）三种主要设置，为未来研究提供了坚实的比较基础。
对未来工作的启示：研究指出了当前方法的局限性，例如模型容量与预训练数据多样性之间的平衡问题，以及输入归一化和模型优化的潜在改进空间，为后续研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问