本文档属于类型a,即报告了一项原创性研究的学术论文。以下是基于文档内容的学术报告:
本研究的作者包括Qi Sun、Kun Huang、Xiaocui Yang、Rong Tong、Kun Zhang和Soujanya Poria。他们分别来自南京理工大学、东北大学、新加坡理工学院和新加坡科技设计大学。该研究于2024年5月13日至17日在新加坡举行的ACM Web Conference 2024(WWW ‘24)上发表。
本研究的主要科学领域是自然语言处理(NLP),特别是文档级关系三元组抽取(Document-Level Relation Triplet Extraction, DocRTE)。传统的方法依赖于大量标注数据,但收集和标注新关系的数据耗时且费力。近年来,大型语言模型(Large Language Models, LLMs)如ChatGPT和LLaMA展现了强大的长文本生成能力,这启发了研究者探索通过LLMs生成自动标注文档的替代方法。本研究的背景知识包括零样本学习(Zero-Shot Learning)、知识去噪(Knowledge Denoising)以及LLMs的应用。研究的主要目标是提出一种零样本文档级关系三元组抽取框架(ZeroDocRTE),通过从LLMs中检索和去噪知识来生成标注数据,从而减少对人工标注数据的依赖。
本研究的工作流程包括以下几个主要步骤:
生成合成数据:
预去噪模型训练:
一致性引导的知识去噪:
关系三元组抽取器训练:
研究者在两个公开数据集(DocRED和Re-DocRED)上进行了实验,评估了ZeroDocRTE框架在零样本文档级关系和三元组抽取任务中的表现。实验结果表明,GenRDK框架在多个基准模型上均取得了显著的性能提升。具体结果如下:
关系三元组抽取任务:
关系抽取任务:
实验结果表明,GenRDK框架在零样本文档级关系和三元组抽取任务中均优于现有的基准模型,证明了其有效性。
本研究提出了一个新颖的文档级数据生成和去噪框架,用于解决零样本文档级关系三元组抽取任务(ZeroDocRTE)。与传统的DocRTE模型不同,该框架能够从LLMs中提取潜在的关系事实,并生成带有新关系类型的标注数据。通过链式检索提示和一致性引导的知识去噪策略,研究者有效地生成了高质量的长文本数据,并减少了噪声标签的影响。实验结果表明,GenRDK框架在多个数据集上均取得了显著的性能提升,证明了其在零样本文档级关系抽取任务中的有效性。
研究者还进行了多项分析和讨论,包括链式检索提示的有效性、知识去噪策略的效果、不同未见关系类型的表现等。这些分析进一步验证了GenRDK框架的鲁棒性和通用性。此外,研究者还提供了代码和实验结果的详细分析,供其他研究者参考和复现。
本研究为文档级关系三元组抽取任务提供了一种全新的解决方案,具有重要的学术价值和应用前景。