本文作者包括 Haoqi Xu, Rong Wang, Duan Huang, Zhen Tan, Ling Zhang, Jinjing Shi, Heyuan Shi, Shuohao Li, Lincheng Jiang 和 Shichao Zhang(Senior Member, IEEE)。主要单位为中南大学计算机科学与工程学院及自动化学院、中南大学电子信息学院,以及中国国防科技大学信息系统工程实验室。文章发表在 Journal of Latex Class Files 第14卷第8期,时间为2021年8月。
研究领域与背景
自然语言处理(Natural Language Processing, NLP)近年来在信息抽取和知识图谱构建等领域展现了重要作用。在NLP研究中,事件被视为理解文本语义的基础单元。但事件通常不会独立存在,而是以复杂关系相互连接,形成事件网络或知识图谱。事件关系识别(Event Relationship Recognition)因此成为深入理解文本语义的关键环节。
现有研究多利用深度神经网络模型进行事件关系提取任务,取得了一定进展,针对共指关系、因果关系以及时间关系等常见的类型,其方法已趋于成熟。然而,对于多类别事件关系的研究还是有限,且大多数中文相关研究依赖人工标注数据,受困于语料稀缺性以及中文特殊的语言特点(如语法复杂性、语义依赖性和词汇歧义性)。这对基于英语发展起来的先进方法适配中文提出了挑战。
研究目的
本文提出了解决上述挑战的新范式,旨在通过编码器-解码器(Encoder-Decoder)框架实现中文多关系事件识别,以增强事件关系分类的性能,并进一步克服数据噪声干扰,提升方法的实用性和准确性。
本研究提出了新颖的编码器-解码器多关系识别框架(EDMRR),包括两个主要部分:事件编码器(Event Encoder)和关系解码器(Relation Decoder)。研究详细进行了以下工作:
1. 事件编码器(Event-Encoder)模块
该模块分为两个部分:元素特征提取和语义特征解析。
元素特征提取
本文首先通过预训练语言模型(例如BERT)生成初始表示,随后利用双向长短时记忆网络(BiLSTM)进行深层特征学习与语义吸收。针对序列标注任务,还采用了条件随机场(CRF)模型提升对标签间依赖关系的建模能力。最终提取的事件结构化表示包括事件触发词(trigger)、参数(arguments)以及对应的角色(roles)。
语义特征解析
作者通过统计语法依赖树(DP树)以及语义依赖树(SDP树)分析句子结构,结合关键动词和语义框架构建语义-语法依赖图(SSDP图)。该图不仅包括触发词与参数关系,还整合了隐式语义依赖关系。这一过程确保生成的事件表示更具全面性和准确性。
2. 关系解码器(Relation-Decoder)模块
该模块提升了多事件关系识别任务的表达能力,主要包括以下步骤:
事件增强表示
依据事件编码器生成的元素特征,利用主谓宾关系(Subject-Verb-Object, SBO)提取事件核心信息(事件恢复语句ERS)。此外,补充类型信息与参数(ERS+Args)形成完整的事件描述,解决了语义丢失的问题。
元素嵌入表示
本文优化了原始BERT模型的三层嵌入层,新增事件核心元素嵌入与距离约束嵌入。优化后的五层嵌入表示增强了模型捕获事件隐含元素的能力,同时通过引入元素间的空间距离约束,提高了复杂事件特征学习能力。
关系分类器
结合优化嵌入表示,研究通过线性层与二元交叉熵(Binary Cross Entropy)函数构建多关系分类器,增强模型的可解释性和鲁棒性。
实验数据及设定
本文基于自构建的10,272份中文语料,包含40,766个事件与36,825个事件对,设计了六种事件关系:因果关系(Causality)、包含关系(Inclusion)、共指关系(Coreference)、时间相等关系(Temporal-Equal)、时间先后关系(Temporal-After)及提及关系(Mention)。实验结果如下:
扩展实验
本文还在数据集中额外引入大量无关系事件对进行噪声仿真,实验结果表明,即使在加入80,000组噪声数据后,模型仍保持部分事件关系的高F1值,如提及关系F1达94%,验证了模型的抗噪性。
本文提出了一种基于编码器-解码器的新型中文事件关系抽取框架EDMRR,解决了语料稀缺和低质量数据带来的挑战。通过整合语法和语义特征构建SSDP树,并结合事件元素增强了事件表示能力和解析准确性。实验表明,该方法不仅在六类事件关系识别任务中取得优异表现,且在现实噪声环境中展示了极高的适用性和可靠性。此外,该框架具备良好的微调拓展能力,可适用于特定领域的事件关系识别任务。
创新的编码器-解码器框架
首次在中文多关系事件抽取任务中引入Encoder-Decoder Paradigm,连接事件检测与关系分类两大任务。
语法语义联合特征解析
利用SSDP图捕获事件的多维特征,增强了事件元素间语义依赖建模的能力。
强抗噪性
实验验证了模型对低质量数据的鲁棒性,适用于现实复杂环境下的任务。
简化标注依赖
通过事件恢复及增强表示(ERS+Args)的设计,大幅缓解模型对人工标注依赖问题,提高了普适性。
本文研究验证了EDMRR框架应用于自然语言处理和知识图谱构建中的潜力,为中文事件关系抽取研究提供了创新思路与实践价值。