分享自:

改进的基于编码器-解码器的中文事件及关系抽取方法

期刊:journal of latex class files

学术报告:面向中文事件与关系抽取的增强研究

研究作者及单位

本文作者包括 Haoqi Xu, Rong Wang, Duan Huang, Zhen Tan, Ling Zhang, Jinjing Shi, Heyuan Shi, Shuohao Li, Lincheng Jiang 和 Shichao Zhang(Senior Member, IEEE)。主要单位为中南大学计算机科学与工程学院及自动化学院、中南大学电子信息学院,以及中国国防科技大学信息系统工程实验室。文章发表在 Journal of Latex Class Files 第14卷第8期,时间为2021年8月。


学术背景

研究领域与背景
自然语言处理(Natural Language Processing, NLP)近年来在信息抽取和知识图谱构建等领域展现了重要作用。在NLP研究中,事件被视为理解文本语义的基础单元。但事件通常不会独立存在,而是以复杂关系相互连接,形成事件网络或知识图谱。事件关系识别(Event Relationship Recognition)因此成为深入理解文本语义的关键环节。
现有研究多利用深度神经网络模型进行事件关系提取任务,取得了一定进展,针对共指关系、因果关系以及时间关系等常见的类型,其方法已趋于成熟。然而,对于多类别事件关系的研究还是有限,且大多数中文相关研究依赖人工标注数据,受困于语料稀缺性以及中文特殊的语言特点(如语法复杂性、语义依赖性和词汇歧义性)。这对基于英语发展起来的先进方法适配中文提出了挑战。

研究目的
本文提出了解决上述挑战的新范式,旨在通过编码器-解码器(Encoder-Decoder)框架实现中文多关系事件识别,以增强事件关系分类的性能,并进一步克服数据噪声干扰,提升方法的实用性和准确性。


研究工作流程

本研究提出了新颖的编码器-解码器多关系识别框架(EDMRR),包括两个主要部分:事件编码器(Event Encoder)和关系解码器(Relation Decoder)。研究详细进行了以下工作:

1. 事件编码器(Event-Encoder)模块
该模块分为两个部分:元素特征提取和语义特征解析。

  • 元素特征提取
    本文首先通过预训练语言模型(例如BERT)生成初始表示,随后利用双向长短时记忆网络(BiLSTM)进行深层特征学习与语义吸收。针对序列标注任务,还采用了条件随机场(CRF)模型提升对标签间依赖关系的建模能力。最终提取的事件结构化表示包括事件触发词(trigger)、参数(arguments)以及对应的角色(roles)。

  • 语义特征解析
    作者通过统计语法依赖树(DP树)以及语义依赖树(SDP树)分析句子结构,结合关键动词和语义框架构建语义-语法依赖图(SSDP图)。该图不仅包括触发词与参数关系,还整合了隐式语义依赖关系。这一过程确保生成的事件表示更具全面性和准确性。

2. 关系解码器(Relation-Decoder)模块
该模块提升了多事件关系识别任务的表达能力,主要包括以下步骤:

  • 事件增强表示
    依据事件编码器生成的元素特征,利用主谓宾关系(Subject-Verb-Object, SBO)提取事件核心信息(事件恢复语句ERS)。此外,补充类型信息与参数(ERS+Args)形成完整的事件描述,解决了语义丢失的问题。

  • 元素嵌入表示
    本文优化了原始BERT模型的三层嵌入层,新增事件核心元素嵌入与距离约束嵌入。优化后的五层嵌入表示增强了模型捕获事件隐含元素的能力,同时通过引入元素间的空间距离约束,提高了复杂事件特征学习能力。

  • 关系分类器
    结合优化嵌入表示,研究通过线性层与二元交叉熵(Binary Cross Entropy)函数构建多关系分类器,增强模型的可解释性和鲁棒性。


研究主要结果

实验数据及设定
本文基于自构建的10,272份中文语料,包含40,766个事件与36,825个事件对,设计了六种事件关系:因果关系(Causality)、包含关系(Inclusion)、共指关系(Coreference)、时间相等关系(Temporal-Equal)、时间先后关系(Temporal-After)及提及关系(Mention)。实验结果如下:

  1. 事件编码表示性能
  • 使用事件恢复语句(ERS)相较基本事件核心句(ECS),模型在Micro-F1上提升了3.05%。
  • 将补充的参数(Args)加入ERS(即ERS+Args)后,进一步提升Micro-F1到84.89%,表明参数信息在捕获事件特征中的重要性。
  1. 优化嵌入层性能
  • 引入事件核心元素与距离约束嵌入后,最终优化版(ORI+ECE+TDE)Micro-F1提升至84.97%,Macro-F1则为77.97%。
  • 特殊难提取的“包含关系”F1分数提高了10.4%。
  • 与经典BERT模型相比,本文优化后的模型普遍在噪声数据中表现更优,对低质量数据的鲁棒性显著增强。

扩展实验
本文还在数据集中额外引入大量无关系事件对进行噪声仿真,实验结果表明,即使在加入80,000组噪声数据后,模型仍保持部分事件关系的高F1值,如提及关系F1达94%,验证了模型的抗噪性。


研究结论

本文提出了一种基于编码器-解码器的新型中文事件关系抽取框架EDMRR,解决了语料稀缺和低质量数据带来的挑战。通过整合语法和语义特征构建SSDP树,并结合事件元素增强了事件表示能力和解析准确性。实验表明,该方法不仅在六类事件关系识别任务中取得优异表现,且在现实噪声环境中展示了极高的适用性和可靠性。此外,该框架具备良好的微调拓展能力,可适用于特定领域的事件关系识别任务。


研究亮点

  1. 创新的编码器-解码器框架
    首次在中文多关系事件抽取任务中引入Encoder-Decoder Paradigm,连接事件检测与关系分类两大任务。

  2. 语法语义联合特征解析
    利用SSDP图捕获事件的多维特征,增强了事件元素间语义依赖建模的能力。

  3. 强抗噪性
    实验验证了模型对低质量数据的鲁棒性,适用于现实复杂环境下的任务。

  4. 简化标注依赖
    通过事件恢复及增强表示(ERS+Args)的设计,大幅缓解模型对人工标注依赖问题,提高了普适性。

本文研究验证了EDMRR框架应用于自然语言处理和知识图谱构建中的潜力,为中文事件关系抽取研究提供了创新思路与实践价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com