分享自:

知识图谱推理与检索的级联嵌入模型

期刊:information processing and managementDOI:10.1016/j.ipm.2019.102093

学术研究报告:知识图谱推理与检索的级联嵌入模型

一、作者与发表信息
本研究由Daifeng Li(中山大学信息管理学院)与Andrew Madden合作完成,发表于Information Processing and Management期刊(2019年8月,卷56,文章编号102093)。

二、学术背景
研究领域:本研究属于知识图谱(Knowledge Graph, KG)与表示学习(Representation Learning)的交叉领域,聚焦于知识推理(Knowledge Inference)与检索任务。
研究动机:现有基于翻译的嵌入模型(如TransE)存在两大局限性:
1. 互逆关系(Reciprocal Relations)问题:例如“职业”与“拥有该职业的人”互为逆关系,但现有模型难以同时准确预测两者;
2. 不平衡关系(Unbalanced Relations)问题:如“1-n”关系中,模型倾向于过度拟合“1”端实体,导致“n”端预测性能下降。
研究目标:提出一种级联嵌入模型(Cascade Embedding Model),融合知识图谱的语义特征与图结构特征,提升缺失关系的预测准确性。

三、研究流程与方法
1. 数据准备与特征提取
- 数据集:选用三个主流知识图谱——WN18(WordNet子集)、FB15K(FreeBase子集)和BioChem(生化领域知识库),统计信息如下表:

| 数据集 | 实体数 | 关系数 | 训练集/测试集规模 |
|——–|——–|——–|——————-|
| WN18 | 40,943 | 18 | 141,4425,000 |
| FB15K | 14,951 | 1,345 | 483,14259,071 |
| BioChem| 295,911| 12 | 709,86510,000 |

  • 特征提取
    • 知识嵌入特征:采用TransE等模型将实体与关系映射为低维向量,得分函数为 ( f_r(s, o) = |s + r - o| )。
    • 图嵌入特征:通过Node2Vec算法提取节点上下文信息,量化实体间的图结构相似性(如局部邻域与全局路径特征)。

2. 级联模型设计
模型分为三阶段(见图4):
- 局部优化阶段(Local Optimization Stage, LOS)
- 第一阶段:通过逻辑回归(Sigmoid函数)初步融合知识嵌入与图嵌入特征,目标函数为最小化负对数似然损失。
- 第二阶段:对特征进行加权细化,生成高阶组合特征。
- 全局优化阶段(Global Optimization Stage, GOS):通过反向传播联合优化所有阶段参数,增强特征表示的一致性。

3. 实验验证
- 任务:实体预测(预测缺失的头部或尾部实体)与关系预测。
- 基线模型:包括TransE、TransH、TransR等传统嵌入模型,以及两层神经网络和GBDT。
- 评估指标:平均排名(Mean Rank)和Hit@10(前10命中率)。

四、主要结果
1. 实体预测性能
- 在WN18和FB15K上,级联模型的Hit@10比TransE平均提升2.3%~2.7%;在稀疏的BioChem数据集上提升高达28%。
- 对互逆关系(如“leslie cheung-国籍-中国”),模型成功将正确答案排名从TransE的未上榜提升至第2位(见表7)。
2. 不平衡关系处理:在BioChem的“bind”关系(109.4-2型不平衡)中,模型对“n”端实体的预测准确率从TransE的3.9%提升至91.2%(见表5)。
3. 级联结构优势:逐步融合特征的“Stepwise-Cascade”结构显著优于单阶段模型,尤其在全局优化后效果进一步提升(图6)。

五、结论与价值
科学价值
1. 首次验证图嵌入距离与实体关系的相关性,为知识推理提供新视角;
2. 提出的级联框架为多特征融合提供了可扩展的优化范式。
应用价值:可应用于问答系统、推荐系统及生物医学假设生成(如BioChem中的药物靶点预测)。

六、研究亮点
1. 方法创新:结合知识嵌入与图嵌入,通过级联优化解决传统模型的特征融合难题;
2. 性能突破:在稀疏和不平衡关系场景下表现优异,尤其对BioChem的生化关系预测提升显著;
3. 可解释性:级联结构的透明性允许分阶段调整特征权重,便于实际部署。

七、其他贡献
- 开源代码与参数设置(如Node2Vec的随机游走策略)为后续研究提供了复现基础;
- 首次在生化领域验证知识图谱嵌入的实用性,拓宽了应用场景。

(注:本文所有术语如“Node2Vec”“Hit@10”等均按学术惯例保留英文,首次出现时标注中文解释。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com