分享自:

知识图谱推理综述

期刊:Expert Systems with Applications

《知识图谱推理综述》报告

本文作者为同济大学电子与信息工程学院的Xiaojun Chen, Shengbin Jia 和 Yang Xiang。该论文是一篇综述性文章,发表于国际期刊《Expert Systems with Applications》第141卷(2020年),文章在线发表日期为2019年9月13日,该文系统回顾与总结了知识图谱(Knowledge Graph, KG)推理这一热门研究领域的基本概念、主要方法、应用场景以及未来挑战,旨在为相关领域的研究者提供一份全面的技术概览与发展路线图。

本文的核心论点是:知识图谱作为一种新型的知识表示方法,能够有效组织和利用知识,而从大规模数据中挖掘隐藏价值高度依赖于推理技术的支撑。因此,知识图谱推理已成为自然语言处理与人工智能领域的一个核心研究课题。论文的核心目标是梳理知识推理的基本定义,并对当前知识图谱推理方法进行系统性的分类与剖析。其主要观点与论述结构如下:

第一,明确定义了知识图谱推理的概念与范畴。 作者首先回顾了“推理”这一概念的哲学与逻辑学渊源,从亚里士多德的三段论到现代计算机科学的Lambda演算。在此基础上,结合知识图谱的特性,论文给出了知识图谱推理的正式定义(Definition 1):给定一个知识图谱 $KG = $ 和一个关系路径 $p$,推理的目标是利用机器学习方法,基于现有数据自动推断实体对之间的潜在关系并识别错误知识,以补全知识图谱,生成原图谱中不存在的三元组 $g’ = { (h, r, t) | h ∈ E, r ∈ R, t ∈ T, (h, r, t) ∉ g }$。作者强调,知识图谱推理的对象不仅包括实体间的属性与关系,还包括实体的属性值以及本体的概念层次。与早期依赖专家手工构建的知识库(如Cyc)不同,当前数据驱动的机器推理方法已成为主流。论文还简要介绍了WordNet、Freebase、YAGO、DBpedia、Wikidata和NELL等国际上领先的知识图谱及其规模统计数据,为后续讨论不同推理方法的适用性提供了背景。

第二,系统性地将知识图谱推理方法划分为三大类别,并对每一类别的代表性工作进行了详细阐述。 这是本文最核心的贡献部分。作者指出,知识图谱作为一种语义网络,其推理方法并不局限于传统的逻辑与规则,而是呈现出多样化的特点。具体分类如下: 1. 基于逻辑规则的推理(Rule-based Reasoning):这类方法主要源于早期的统计关系学习研究。 * 一阶谓词逻辑推理:以FOIL(First-Order Inductive Learner)及其变体(如NFOIL、KFOIL)为代表,通过搜索图谱中的所有关系,获取每种关系的Horn子句集作为预测特征模式。AMIE和AMIE+系统是此类方法的典型,专注于在大型知识图谱上挖掘Horn规则以补全图谱和检测错误。 * 基于规则和概率图模型的推理:将人工定义的逻辑规则与概率图模型结合,在构建的逻辑网络上进行概率推理。代表性工作包括利用马尔可夫逻辑网络(Markov Logic Network, MLN)清洗知识库,以及使用概率软逻辑(Probabilistic Soft Logic, PSL)处理具有软真值的随机变量,进行高效的连续优化推理。 * 基于本体的推理:与RDFS、OWL等本体语言紧密相关,利用抽象的模式、约束或路径进行推理。例如,通过将OWL EL本体转化为知识图谱并进行高效推理,或开发分布式推理系统(如KGRL)来应用OWL2 RL推理规则。 * 基于随机游走的算法:以路径排序算法(Path Ranking Algorithm, PRA)为代表。PRA通过在图谱上进行约束随机游走,发现频繁连接特定关系两端实体的边类型序列,并将其作为逻辑回归模型的特征来预测缺失边。后续改进工作包括引入向量相似性以减少特征稀疏性(SFE算法)、设计双层随机游走算法(TRWA)结合全局与局部信息、以及采用多任务学习框架(CPRA)耦合相关关系的学习。 作者总结指出,基于逻辑规则的方法趋势是逐渐放弃手工规则,转而利用模式识别自动挖掘规则或特征。但其主要缺陷在于计算复杂度高、可扩展性差,且对数据稀疏性(尤其是长尾分布实体)和多重推理(Multi-hop Reasoning)问题的处理存在挑战。

  1. 基于分布式表示的推理(Distributed Representation-based Reasoning):这类方法将知识图谱中的实体、关系和属性投影到连续的向量空间中得到分布式表示(即嵌入,Embedding),然后在该向量空间中进行运算和推理。

    • 基于张量分解的模型:将知识图谱表示为一个三维张量,通过张量分解(如RESCAL模型及其变体Trescal、RESCAL-Logit)来推断未知事实。这类方法通过降维保留原始数据的特征。
    • 基于距离的翻译模型:以TransE模型为基石,其核心思想是将关系视为头实体向量到尾实体向量的翻译(即 $h + r ≈ t$)。为处理复杂关系(如一对多、多对多),一系列改进模型被提出:TransH通过将实体投影到关系特定的超平面上,使同一实体在不同关系中具有不同表示;TransR将实体和关系映射到不同的向量空间;TransD使用动态映射矩阵;TransG利用高斯混合模型处理关系的多重语义;KG2E则用高斯分布建模实体和关系的不确定性。此外,还有考虑时间信息的时间感知推理模型(如T-TransE, HyTE)。
    • 基于语义匹配的模型:通过衡量实体和关系在向量空间中的语义相似性进行推理。包括语义匹配能量模型(SME)、隐因子模型、简化RESCAL的DistMult模型、使用循环相关的全息嵌入模型(HolE),以及能够更好处理对称和非对称关系的复数空间嵌入模型(ComplEx)。
    • 融合多源信息的推理:将逻辑规则、文本描述、实体类型等辅助信息与分布式表示相结合,以提升推理性能。例如,KALE模型通过T-范数模糊逻辑将三元组和逻辑规则统一为原子和复杂公式进行联合学习;联合嵌入模型(如PTranse、TEKE)将知识图谱与文本语料库共同嵌入到同一向量空间;TKRL和MKRL模型则利用了实体的层次类型信息和多源描述信息。 作者认为,表示学习方法能有效解决数据稀疏性问题,推理和语义计算效率高于逻辑模型,但其可解释性相对较差,向量值的物理意义不明确。
  2. 基于神经网络的推理(Neural Network-based Reasoning):利用神经网络强大的特征捕获和非线性变换能力进行知识推理。

    • 早期工作如单层模型(SLM)通过非线性层隐式连接实体向量。
    • 神经张量网络(Neural Tensor Network, NTN):用一个双线性张量层替代标准的线性神经网络层,直接关联两个实体向量的多个维度,极大地增强了模型的表达能力。后续改进包括使用无监督学习得到的词向量初始化实体表示,以提升对未见实体的推理能力。
    • 为应对参数规模过大的问题,提出了如Proje这样的共享变量神经网络模型。 作者指出,神经网络适合于知识推理这类抽象任务,能够自动学习特征表示。

第三,全面梳理了知识图谱推理的应用场景。 论文将应用分为知识图谱内部应用(In-KG Applications)和外部应用(Out-of-KG Applications)。 * 内部应用主要包括:知识图谱补全(Knowledge Graph Completion),即预测缺失的三元组;实体分类(Entity Classification),即判断实体的类型。 * 外部应用则更为广泛,覆盖多个领域:医疗领域,用于疾病诊断、药物发现等;互联网金融,用于风险控制、反欺诈等;智能问答系统(Intelligent Question Answering System),基于图谱知识回答复杂问题;推荐系统(Recommendation Systems),利用用户和物品的实体及关系提升推荐精准度;其他应用,如搜索引擎增强、语义理解等。

第四,讨论了当前面临的挑战与未来的研究机遇。 在总结部分,作者基于现有方法的分析,指出了几个值得深入探索的未来方向: 1. 动态知识推理(Dynamical Knowledge Reasoning):现有研究大多基于静态知识图谱,而现实世界知识是不断演化的。如何对时序动态变化的知识进行建模和推理是一个重要挑战。 2. 零样本推理(Zero-shot Reasoning):如何让模型能够推理在训练阶段从未见过的新型实体或关系。 3. 多源信息推理(Multi-source Information Reasoning):如何更有效、更统一地整合文本、图像、音频等多模态信息以及复杂逻辑规则,进行联合推理。 4. 多语言知识图谱推理(Multi-lingual Knowledge Graph Reasoning):跨越不同语言的知识图谱进行推理,实现知识的跨语言迁移和整合。

本文的发表具有重要的学术价值与实践意义。在学术上,它首次系统地对知识图谱推理这一新兴交叉领域进行了全面综述,涵盖了从传统逻辑方法到前沿表示学习与神经网络的超过147篇重要文献,清晰勾勒出该领域的技术发展脉络和分类体系,为后续研究者提供了宝贵的“知识图谱”。在实践上,论文详细分析了各类方法的优缺点及适用场景,并展望了未来在动态、零样本、多源、多语言等方面的研究方向,对推动知识图谱技术在智能搜索、问答、推荐、金融风控、医疗健康等众多实际领域的落地应用具有重要的指导作用。本文的亮点在于其高度的系统性和前瞻性,不仅是对过去工作的总结,更是对未来研究方向的指引。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com