类型b
这篇综述文章由王俞涵、陈子阳、赵翔等人撰写,作者分别来自国防科技大学和中国科学院计算技术研究所。文章发表在《软件学报》(Journal of Software)2024年第35卷第8期。
本文的核心主题是时序知识图谱(Temporal Knowledge Graph, TKG)的表示与推理研究进展与趋势。随着人工智能领域的快速发展,知识图谱作为一种重要的数据形式已被广泛应用于多个领域。然而,传统的静态知识图谱无法适应高频更新的知识场景,因此引入了时序知识图谱的概念。时序知识图谱通过引入时间信息,能够更好地捕捉动态变化的知识,为推荐系统、智能问答等应用提供更精准的数据支持。
时序知识图谱的研究源于对传统静态知识图谱局限性的反思。静态知识图谱虽然在自然语言处理等领域取得了显著成果,但其缺乏动态变化的能力,难以应对知识高频更新的场景。为此,研究者提出了时序知识图谱的概念,并围绕其展开了一系列研究。这些研究涵盖了时序知识抽取、表示学习、知识推理、图谱补全等多个方向。其中,时序知识表示与推理是最为核心的研究内容,也是当前研究进展最快的领域之一。
文章详细梳理了时序知识图谱表示与推理的研究现状,并归纳了一个通用的理论框架,该框架包含四个核心模块:底层嵌入模块、时间信息处理模块、推理模块以及特殊场景定制设计。以下将逐一介绍各模块的主要研究内容及其代表性工作。
底层嵌入模块是整个模型的基础,决定了实体和关系的初始表示方式。根据嵌入方法的不同,可以分为基于语义相关性和基于结构相关性两类。 - 基于语义相关性的方法主要利用实体和关系之间的语义联系进行建模。例如,Jiang等人提出的T-TransE模型在传统静态模型TransE的基础上增加了时间约束信息,形成了最早的时序知识表示方法。随后,HyTE、TA-DistMult等模型进一步改进了时间信息的利用方式,提升了模型的表现。 - 基于结构相关性的方法则侧重于图结构特性的挖掘。这类方法通常采用图卷积网络(Graph Convolutional Network, GCN)或关系图卷积网络(Relational Graph Convolutional Network, R-GCN)来提取图谱中的结构信息。例如,RE-Net模型利用R-GCN聚合实体的邻域信息,并结合RNN对事件序列进行建模。
时间信息处理模块是时序知识图谱的核心部分,用于捕获时间对实体和关系的影响。现有方法可分为显式建模和隐式建模两类。 - 显式建模直接对时间信息进行处理,而不提取历史信息。例如,T-TransE模型使用转移矩阵建模关系之间的时间顺序,而DE-SimplE模型则通过显式函数表达时间对实体表示的影响。 - 隐式建模则通过对历史信息的提取来间接反映时间的变化。例如,Know-Evolve模型将时序知识图谱转换为一个图谱序列,并利用RNN对实体的历史信息进行编码。此外,RE-GCN模型设计了进化单元来对实体的历史信息进行建模。
推理模块负责对接下游任务,如实体预测、关系预测和时间预测等。根据推理依据的不同,可以分为基于语义推理、基于结构推理、基于概率计算推理和混合推理四类。 - 基于语义推理的模型通过构建评价函数来进行推理,常见方法包括基于翻译的评价函数和双线性函数。 - 基于结构推理的模型则依赖图谱的图特性,常用方法包括强化学习和路径推理。 - 基于概率计算推理的模型将推理问题转化为条件概率计算问题。 - 混合推理同时利用语义信息和结构信息进行联合推理。
为了应对不同的应用场景,研究者还开发了一些针对特定场景的定制化模型。例如,增量/在线场景的CEN模型、小/零样本场景的MetaTKG模型以及开放世界场景的TIter模型。
本文不仅系统地总结了时序知识图谱表示与推理的研究进展,还提出了未来可能的研究方向。例如,如何更高效地挖掘历史信息、如何提升模型在大规模数据集上的表现、以及如何应对开放世界场景中的新实体和新关系等问题。这些研究方向为后续工作提供了重要的参考。
本文为时序知识图谱的研究者提供了一份详尽的综述,有助于快速了解当前研究动态并启发未来的研究方向。