分享自:

RelBERT:利用语言模型嵌入关系

期刊:Artificial IntelligenceDOI:10.1016/j.artint.2025.104359

这篇文档属于类型a(单篇原创研究报告),以下是针对该研究的学术报告:


作者与机构
本研究的核心作者为Asahi Ushio、Jose Camacho-Collados和Steven Schockaert,均来自英国卡迪夫大学计算机科学与信息学院的自然语言处理团队(Cardiff NLP)。研究论文《RelBERT: Embedding Relations with Language Models》发表于人工智能领域知名期刊《Artificial Intelligence》2025年第347卷,文章编号104359,采用开放获取形式发布(CC BY 4.0许可)。


学术背景

研究领域与动机
该研究属于自然语言处理(NLP)中的关系表示学习领域,聚焦于如何从预训练语言模型(Language Models, LMs)中提取细粒度的关系嵌入(relation embeddings)。传统方法依赖知识图谱(Knowledge Graphs, KGs)的符号化表示或静态词向量(如Word2Vec)的差分运算,但前者存在模式固定性和覆盖不全的问题,后者则因噪声过大难以捕捉复杂关系。尽管大语言模型(LLMs)能部分解决这一问题,但其计算效率低且难以控制。因此,本研究提出RelBERT——一种基于小型掩码语言模型(如RoBERTa)微调的关系嵌入框架,仅需少量训练数据即可实现高性能。

核心目标
1. 开发高效的关系嵌入模型,超越传统词向量差分和知识图谱的局限性。
2. 验证模型在零样本(zero-shot)场景下的泛化能力,包括对未训练关系类型(如命名实体关系、形态学类比)的识别。
3. 在多个类比推理(analogy)和词汇关系分类(lexical relation classification)任务中建立新的性能标杆。


研究流程与方法

1. 模型架构设计(RelBERT框架)

输入处理
- 将词对(如“king:queen”)通过固定模板(如“[h] is the of [t]”)输入RoBERTa模型,生成上下文感知的嵌入。
- 采用五种人工设计的提示模板(prompt templates),例如:“Today, I finally discovered the relation between [h] and [t]: [h] is the of [t]”。

嵌入聚合策略
- Mask Token嵌入:直接使用模型对<mask>标记的输出向量。
- 全局平均:对提示文本所有标记的嵌入取平均(排除或包含<mask>)。实验表明“排除的平均策略”(average w.o. mask)效果最佳。

2. 训练目标与损失函数

模型通过对比学习微调,使同类关系的嵌入相近,异类关系嵌入相远。测试三种损失函数:
- Triplet Loss:基于三元组(锚点、正例、负例)的边际损失。
- InfoNCE:利用余弦相似度的噪声对比估计,支持批量负例对比。
- InfoLOOB:改进版InfoNCE,避免正例对分母的干扰。最终选择InfoNCE(温度参数τ=0.5)。

3. 训练数据集

使用四类数据集,覆盖不同关系类型和领域:
- RelSim:来自SemEval 2012的79种细粒度语义关系,含10个父类别(如“同义”“反义”“部分-整体”)。
- ConceptNet:常识知识图谱,过滤后保留60万高质量三元组。
- NELL-OneT-REx:面向命名实体的知识图谱,分别包含31种和721种关系。

4. 评估任务

类比推理(Analogy Questions)
- 在SAT、U2/U4、BATS等9个基准测试中,RelBERT通过计算查询词对与候选词对的嵌入余弦相似度选择最佳答案。
- 示例:SAT题目“wing:air → flipper:water”,模型需识别“功能相似性”。

词汇关系分类
- 冻结RelBERT嵌入层,训练多层感知机(MLP)对词对关系分类,在BLESS、Evalution等数据集上对比现有方法。


主要结果

  1. 类比任务性能

    • RelBERT-large在SAT测试中准确率达73.3%,较GPT-3(53.7%)和传统方法LRA(56.4%)显著提升。
    • 在BATS和Google数据集上分别达到80.9%和95.2%的准确率,超越所有基线(包括1750亿参数的GPT-3)。
    • 零样本泛化:仅训练概念关系的模型,在命名实体(如“Miami Dolphins:Cam Cameron”)和形态学类比(如“happy:happily”)任务中表现优异。
  2. 关系分类任务

    • RelBERT-large在Evalution和Root09数据集上刷新最高F1分数(68.4%和90.4%),优于LexNet和SphereRE等专用模型。
  3. 训练数据影响分析

    • 即使从训练集中移除特定关系(如“hypernym”),模型仍能通过预训练语言模型的知识泛化到该关系,验证了其非记忆性学习能力。

结论与价值

科学意义
- 提出了一种高效的关系嵌入蒸馏框架,证明小型语言模型(1.4亿参数)可通过微调超越千亿级LLMs的类比推理能力。
- 揭示了预训练语言模型中隐含的关系结构化表示,为理解LM的知识存储机制提供了新视角。

应用价值
- 可服务于知识图谱补全、语义搜索、推荐系统等场景,弥补符号化知识库的覆盖不足问题。
- 开源模型和代码(GitHub仓库)促进了可复现研究和工业应用。


研究亮点

  1. 方法创新:首次将对比学习与提示工程结合,从RoBERTa中提取关系嵌入,避免了大模型的低效问题。
  2. 性能突破:在9个类比基准中全面超越SOTA,SAT准确率提升17个百分点。
  3. 泛化性验证:模型对未训练关系类型(如命名实体、形态学)的强泛化能力,表明其依赖LM的深层知识而非表层统计。

补充发现
- 模型对提示模板的鲁棒性:即使使用简短或无意义的模板,性能仅轻微下降(§7.3.4)。
- 与GPT-4的对比:尽管RelBERT-large参数规模仅为GPT-4的0.04%,但在多数任务中表现接近,计算效率显著占优。


(全文约2000字,覆盖研究全貌与细节)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com