这篇文档属于类型b,是一篇发表在IEEE Transactions on Neural Networks and Learning Systems(2022年2月,第33卷第2期)上的综述论文,标题为《A Survey on Knowledge Graphs: Representation, Acquisition, and Applications》。作者包括Shaoxiong Ji(阿尔托大学)、Shirui Pan(莫纳什大学)、Erik Cambria(南洋理工大学)、Pekka Marttinen(阿尔托大学)和Philip S. Yu(伊利诺伊大学芝加哥分校)。
本文对知识图谱(Knowledge Graph, KG)的研究进行了全面综述,涵盖知识图谱的表示学习(representation learning)、知识获取(acquisition)及其应用(applications),并总结了近期突破性进展和未来研究方向。
知识图谱表示学习旨在将实体和关系映射到低维向量空间,同时保留其语义信息。论文从四个维度展开:
- 表示空间(Representation Space):包括点空间(如TransE的欧氏空间)、复杂向量空间(如Complex的复数空间)、高斯分布(如KG2E)和流形空间(如ManifoldE)。不同空间适用于不同任务,例如复数空间能建模对称/反对称关系。
- 评分函数(Scoring Function):分为基于距离的(如TransE的平移原则)和基于语义匹配的(如DistMult的双线性模型)。评分函数衡量三元组(head, relation, tail)的合理性。
- 编码模型(Encoding Models):包括线性/双线性模型(如RESCAL)、张量分解(如Tucker)和神经网络(如CNN-based ConvE、GNN-based R-GCN)。神经网络通过非线性交互提升表达能力。
- 辅助信息(Auxiliary Information):如文本描述(DKRL)、类型约束(SSE)和视觉信息(IKRL),可增强表示学习。
支持理论:论文列举了超过20种代表性模型(如TransE、RotatE、QuatE),并通过对比实验说明不同方法在链接预测任务中的性能差异。
知识获取旨在从非结构化文本或已有知识图谱中补全或发现新知识,分为三类任务:
- 知识图谱补全(Knowledge Graph Completion, KGC):包括嵌入排序(如TransE)、关系路径推理(如PRA)、规则推理(如NeuralLP)和元关系学习(如GMatching)。规则推理结合符号逻辑,提升可解释性。
- 实体发现(Entity Discovery):包括实体识别(如LSTM-CRF)、实体消歧(如Ganea的注意力模型)和实体对齐(如BootEA的迭代对齐)。跨语言对齐是研究热点。
- 关系抽取(Relation Extraction):基于远程监督(如PCNN)和神经网络(如BERT-based模型),结合对抗训练(DSGAN)和强化学习(HRL)缓解噪声问题。
支持证据:论文对比了KGC模型在FB15k-237等基准数据集上的性能,显示结合路径推理和规则的模型(如RuleN)在复杂推理中更优。
传统知识图谱忽略时间动态性,而时序知识图谱将三元组扩展为四元组(head, relation, tail, timestamp)。研究包括:
- 时序嵌入:如HyTE将时间戳作为超平面投影实体和关系。
- 实体动态性:如Know-Evolve用点过程建模实体状态演化。
- 时序规则:如RLvLR-Stream从知识流中学习时序闭路径规则。
应用场景:适用于事件预测(如RE-Net建模交互序列)和时效性问答。
知识图谱赋能下游任务的核心是融合符号知识与计算模型:
- 语言表示学习:如ERNIE-Baidu通过实体掩码注入知识,K-BERT将知识子图融入Transformer。
- 问答系统:单事实问答(如BAMNet的双向注意力)和多跳推理(如KagNet的路径注意力)。
- 推荐系统:如MKR通过共享潜在特征联合训练知识图谱和推荐模型,KPRN用LSTM建模用户-物品交互路径。
案例:DKN模型将新闻中的实体与知识图谱对齐,提升点击率预测准确率。
这篇综述为研究者提供了知识图谱领域的全景视角,兼具理论深度与实践指导意义。