分享自:

基于大语言模型的文档级关系抽取半自动数据增强方法

期刊:Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

这篇文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:


主要作者及研究机构
本研究由Junpeng Li、Zixia Jia和Zilong Zheng共同完成,他们均来自国家通用人工智能重点实验室(National Key Laboratory of General Artificial Intelligence, BigAI)。该研究发表于2023年12月6日至10日举行的2023 Conference on Empirical Methods in Natural Language Processing (EMNLP)会议,并被收录于会议论文集第5495至5505页。

学术背景
研究的核心领域是文档级关系抽取(Document-level Relation Extraction, DocRE),旨在从长文本中提取实体对之间的细粒度关系。文档级关系抽取是实现细粒度结构理解和生成可解释文档表示的关键挑战。尽管近年来大语言模型(Large Language Models, LLMs)如ChatGPT在上下文学习(In-context Learning)方面取得了显著进展,但直接应用于文档级关系抽取仍存在困难,原因在于预定义的细粒度关系类型众多且大语言模型的生成结果难以控制。为了解决这一问题,本研究提出了一种结合大语言模型和自然语言推理(Natural Language Inference, NLI)模块的方法,用于生成关系三元组,从而增强文档级关系数据集。研究的主要目标是设计一种自动化标注方法,以最小化人工干预,同时提高数据集的完整性和质量。

研究流程
研究分为以下几个主要步骤:
1. 构建提示词(Prompt Construction)
研究者设计了一种提示词生成框架,用于引导大语言模型(如GPT-3.5)生成关系三元组。提示词包括生成示例和特定上下文,并要求模型仅使用提供的实体列表生成至少20个三元组。通过迭代生成更多三元组,并过滤掉不符合实体列表的三元组,最终得到候选关系三元组。
2. 自然语言推理模块(NLI Module)
为了将生成的关系三元组映射到预定义的关系类型,研究者采用了自然语言推理模型(如T5-xxl)。该模型通过计算前提(Premise)和假设(Hypothesis)之间的蕴含分数(Entailment Score),将生成的关系与预定义类型对齐。研究者为每个生成的三元组构建了192个可能的假设(包括正向和反向关系),并通过NLI模型选择得分最高的关系类型。
3. 后处理(Post Processing)
为了确保生成的三元组质量,研究者设置了以下筛选条件:
- 实体类型必须满足关系的类型约束;
- 蕴含分数必须高于0.6;
- 选择得分最高的关系类型。
4. 数据集增强与验证
研究者将生成的三元组补充到现有的DocRED数据集中,创建了一个增强版数据集DocGNRE。对于测试集,每个生成的三元组都经过人工验证,以确保其准确性。最终,DocGNRE测试集比原始数据集增加了2078个三元组,且人工验证的接受率为71.3%。

主要结果
1. 零样本文档级关系抽取(Zero-shot Document-level RE)
实验表明,单独使用GPT-3.5生成的准确率较低,但结合NLI模块后,性能显著提升。在DocGNRE测试集上,GPT-3.5 + NLI的精确率(Precision)达到72.71%,召回率(Recall)为15.32%,F1分数为25.31%。这表明生成的三元组补充了原始数据集中缺失的长尾关系类型。
2. 训练数据集增强
研究者使用生成的三元组增强训练数据集,并测试了当前最先进的文档级关系抽取模型(如DREEAM)。实验结果显示,增强后的训练数据显著提高了模型在DocGNRE测试集上的召回率,表明生成的三元组有助于模型学习更多真实关系实例。

结论
本研究提出了一种结合大语言模型和自然语言推理模块的自动化数据生成框架,有效解决了文档级关系抽取中的数据集不完整问题。通过生成和补充长尾关系类型,DocGNRE数据集显著提高了文档级关系抽取的完整性和准确性。此外,研究还展示了该框架在零样本关系抽取中的潜力,为未来更广泛的应用提供了基础。

研究亮点
1. 创新性方法:首次将大语言模型与自然语言推理模块结合,用于文档级关系抽取。
2. 高质量数据集:通过自动生成和人工验证,创建了DocGNRE数据集,补充了大量长尾关系类型。
3. 广泛适用性:该框架不仅适用于文档级关系抽取,还可扩展到其他领域的关系类型定义和数据增强任务。

其他有价值的内容
研究还探讨了大语言模型在生成关系三元组时的局限性,例如生成长度的限制和实体对错误的问题,并提出了相应的解决方案。此外,研究者公开了DocGNRE数据集和代码,为后续研究提供了宝贵的资源。


这篇研究为文档级关系抽取领域提供了重要的理论和方法支持,同时也展示了自动化数据生成在实际应用中的巨大潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com