m𝟐ixkg:知识图谱中更难负样本的混合

学术报告

背景介绍

知识图谱(knowledge graph,KG)是记录实体和关系信息的结构化数据,广泛应用于问答系统、信息检索、机器阅读等领域。知识图谱嵌入(Knowledge Graph Embedding, KGE)技术通过将图谱中的实体和关系映射到低维稠密向量空间,大大提升了相关应用的性能。然而,在KGE模型的训练过程中,如何生成高质量的负样本(negative samples)至关重要。

目前主流的KGE模型在生成负样本时面临诸多挑战。一些模型使用简单的静态分布,如均匀分布或伯努利分布(Sampling from Uniform or Bernoulli distribution),这些方法生成的负样本通常缺乏区分度。而且,现有方法在生成负样本时,通常只是从知识图谱中已经存在的实体中选取,这限制了生成更难负样本(hard negatives)的能力。

本文提出了一种新颖的混合策略,名为m²ixkg,它在生成更难负样本时采用了两种混合操作:一是同一关系下头实体和尾实体(heads and tails)的混合,增强了实体嵌入的鲁棒性和泛化能力;二是通过混合得分高的负样本生成更难负样本。本文旨在解决现有方法中生成高质量负样本的不足,并通过实验验证其有效性。

论文来源

本文题为《m²ixkg: Mixing for Harder Negative Samples in Knowledge Graph》,由Tsinghua University的Feihu Che和Jianhua Tao撰写,发表在2024年即将出版的《Neural Networks》期刊上。

研究流程

本文详述了m²ixkg的研究流程,包括以下几个主要步骤:

1. 数据集和模型选择

研究使用了三个广泛认可的基准数据集:FB15k-237, WN18, 和WN18RR。这些数据集均来自知名的知识库,如Freebase和WordNet。选择的评分函数包括TransE、RotatE、DistMult和ComplEx,它们是当前KGE研究中的经典模型。

2. 实验设置

实验设置包括使用Adam优化器进行模型训练,并在验证集上进行超参数调优。研究中的超参数包括批量大小、固定边际、负样本集大小以及混合系数等。

3. m²ixkg方法

m²ixkg包含两个主要的混合操作:混合头和尾实体(mix1);在难负样本之间混合(mix2)。具体来说: - Mix1:混合头和尾实体:将头实体、关系和尾实体作为输入特征、模型编码和标签,对于相同关系下的三元组进行混合操作。生成新的三元组,增强模型的泛化能力。 - Mix2:在难负样本之间混合:首先从已采样的负样本中选择高质量的负样本,然后混合这些负样本,生成更具挑战性的负样本。

具体步骤包括: 1. 从知识图谱中随机选择实体,形成一个负样本候选集合。 2. 计算这些负样本的得分,基于得分的概率进行采样。 3. 随机选择一对负样本,并将它们的尾实体进行线性插值混合。

4. 损失函数

本文使用的损失函数分为两类: - Translational Distance Model: 如TransE。 - Semantic Matching Model: 如DistMult和ComplEx。

损失函数的设定在模型训练中至关重要,直接关系到模型的性能表现。

研究结果

研究通过实验验证了m²ixkg方法的有效性,实验结果显示该方法在多个场景中均优于现有的负样本生成算法。

1. 实验结果和分析

通过与其他经典负样本生成方法的比较,m²ixkg在MRR和Hits@10等评估指标上表现出显著的提升。具体来说,m²ixkg在FB15k-237 和 WN18RR数据集上,平均MRR分别提升了0.0025和0.0011,而Hits@10显著提升了0.21,0.14,0.94和0.27。

2. 消融实验

通过消融实验,研究进一步验证了混合操作对模型性能提升的贡献。实验结果表明,无论在哪种评分函数和数据集上,mix1和mix2这两种混合方法都能显著提升模型性能,且二者结合使用效果更佳。

结论及意义

本研究提出的m²ixkg方法通过混合操作生成更难负样本,这是一种简单但有效的技术,旨在提升知识图谱嵌入模型的性能。研究验证了混合操作对知识图谱嵌入的正面影响,具体包括头尾实体的混合增强了学习到的嵌入的泛化性和鲁棒性,难负样本的混合生成更具挑战性的负样本,提高了模型区分正负样本的能力。

m²ixkg方法的显著贡献如下: - 生成高质量的负样本吸纳虚拟实体。 - 加强学习到的嵌入的一般化,通过同一关系下的头尾实体混合。 - 设计了一个针对不同头-关系对的软数量选择机制,从而精确选择难负样本。

最后,本文为生成难负样本的研究提供了新的视角和方法,同时也验证了其在多个数据集和评分函数上的广泛适用性,为KGE模型的优化提供了新的途径和手段。