基于一致性的知识检索与去噪在LLMs中的零样本文档级关系三元组提取

分享自：
基于一致性的知识检索与去噪在LLMs中的零样本文档级关系三元组提取

期刊:Proceedings of the ACM Web Conference 2024DOI:10.1145/3589334.3645678
本文档属于类型a，即报告了一项原创性研究的学术论文。以下是基于文档内容的学术报告：
作者及机构本研究的作者包括Qi Sun、Kun Huang、Xiaocui Yang、Rong Tong、Kun Zhang和Soujanya Poria。他们分别来自南京理工大学、东北大学、新加坡理工学院和新加坡科技设计大学。该研究于2024年5月13日至17日在新加坡举行的ACM Web Conference 2024（WWW ‘24）上发表。
学术背景本研究的主要科学领域是自然语言处理（NLP），特别是文档级关系三元组抽取（Document-Level Relation Triplet Extraction, DocRTE）。传统的方法依赖于大量标注数据，但收集和标注新关系的数据耗时且费力。近年来，大型语言模型（Large Language Models, LLMs）如ChatGPT和LLaMA展现了强大的长文本生成能力，这启发了研究者探索通过LLMs生成自动标注文档的替代方法。本研究的背景知识包括零样本学习（Zero-Shot Learning）、知识去噪（Knowledge Denoising）以及LLMs的应用。研究的主要目标是提出一种零样本文档级关系三元组抽取框架（ZeroDocRTE），通过从LLMs中检索和去噪知识来生成标注数据，从而减少对人工标注数据的依赖。
研究流程本研究的工作流程包括以下几个主要步骤：
生成合成数据：
研究者提出了一种链式检索提示（Chain-of-Retrieval Prompt），通过逐步引导ChatGPT生成长文本数据。具体步骤包括：选择与目标关系类型最相关的关系、生成包含目标关系和相关关系的虚构文档、从文档中抽取实体集、提取所有类型的关系三元组、生成每个三元组的推理解释和支持句子索引，最终生成结构化标签。
由于LLMs在生成过程中可能会引入噪声标签，研究者进一步提出了一种基于跨文档知识一致性的去噪策略。
预去噪模型训练：
研究者使用已知关系的数据集训练了一个预去噪模型（Pre-Denoising Model），该模型基于LLaMA2-13B-Chat，并采用了低秩适应（Low-Rank Adaptation, LoRA）技术。预去噪模型通过动态组合关系集来增强训练数据的多样性，并生成合成数据的伪标签。
一致性引导的知识去噪：
研究者构建了基于伪标签和原始标签的跨文档知识图（Knowledge Graph），并通过计算一致性分数来评估关系事实的可靠性。通过动态阈值策略，研究者去除了不可靠的关系三元组，并重新标注了合成数据。
这一去噪策略有效地减少了错误的关系事实，并补充了缺失的关系事实。
关系三元组抽取器训练：
研究者使用去噪后的合成数据微调了LLaMA2-13B-Chat模型，训练了一个文档级关系三元组抽取器（Relation Triplet Extractor）。该模型能够从文档中抽取未见过的关系类型的三元组。
主要结果研究者在两个公开数据集（DocRED和Re-DocRED）上进行了实验，评估了ZeroDocRTE框架在零样本文档级关系和三元组抽取任务中的表现。实验结果表明，GenRDK框架在多个基准模型上均取得了显著的性能提升。具体结果如下：
关系三元组抽取任务：
在Re-DocRED数据集上，当未见关系类型数量为5时，GenRDK在测试集上的F1得分为13.1±2.6；当未见关系类型数量为10时，F1得分为8.2±0.6。
在DocRED数据集上，当未见关系类型数量为5时，GenRDK在测试集上的F1得分为14.2±1.3；当未见关系类型数量为10时，F1得分为9.4±0.6。
关系抽取任务：
在Re-DocRED数据集上，当未见关系类型数量为5时，GenRDK在测试集上的F1得分为41.3±8.9；当未见关系类型数量为10时，F1得分为30.1±4.2。
在DocRED数据集上，当未见关系类型数量为5时，GenRDK在测试集上的F1得分为41.5±8.7；当未见关系类型数量为10时，F1得分为31.4±4.6。
实验结果表明，GenRDK框架在零样本文档级关系和三元组抽取任务中均优于现有的基准模型，证明了其有效性。
结论本研究提出了一个新颖的文档级数据生成和去噪框架，用于解决零样本文档级关系三元组抽取任务（ZeroDocRTE）。与传统的DocRTE模型不同，该框架能够从LLMs中提取潜在的关系事实，并生成带有新关系类型的标注数据。通过链式检索提示和一致性引导的知识去噪策略，研究者有效地生成了高质量的长文本数据，并减少了噪声标签的影响。实验结果表明，GenRDK框架在多个数据集上均取得了显著的性能提升，证明了其在零样本文档级关系抽取任务中的有效性。
研究亮点新颖的任务设置：本研究首次提出了零样本文档级关系三元组抽取任务（ZeroDocRTE），并提出了相应的解决方案。
创新的生成方法：研究者提出的链式检索提示（Chain-of-Retrieval Prompt）能够有效地引导LLMs生成长文本数据，并生成复杂的关系三元组。
有效的去噪策略：基于跨文档知识一致性的去噪策略能够显著减少合成数据中的噪声，提高数据质量。
显著的性能提升：GenRDK框架在多个公开数据集上均取得了显著的性能提升，证明了其在零样本文档级关系抽取任务中的优越性。
其他有价值的内容研究者还进行了多项分析和讨论，包括链式检索提示的有效性、知识去噪策略的效果、不同未见关系类型的表现等。这些分析进一步验证了GenRDK框架的鲁棒性和通用性。此外，研究者还提供了代码和实验结果的详细分析，供其他研究者参考和复现。
本研究为文档级关系三元组抽取任务提供了一种全新的解决方案，具有重要的学术价值和应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问