改进的基于编码器-解码器的中文事件及关系抽取方法

分享自：
改进的基于编码器-解码器的中文事件及关系抽取方法

期刊:journal of latex class files
学术报告：面向中文事件与关系抽取的增强研究研究作者及单位本文作者包括 Haoqi Xu, Rong Wang, Duan Huang, Zhen Tan, Ling Zhang, Jinjing Shi, Heyuan Shi, Shuohao Li, Lincheng Jiang 和 Shichao Zhang（Senior Member, IEEE）。主要单位为中南大学计算机科学与工程学院及自动化学院、中南大学电子信息学院，以及中国国防科技大学信息系统工程实验室。文章发表在 Journal of Latex Class Files 第14卷第8期，时间为2021年8月。
学术背景研究领域与背景
 自然语言处理（Natural Language Processing, NLP）近年来在信息抽取和知识图谱构建等领域展现了重要作用。在NLP研究中，事件被视为理解文本语义的基础单元。但事件通常不会独立存在，而是以复杂关系相互连接，形成事件网络或知识图谱。事件关系识别（Event Relationship Recognition）因此成为深入理解文本语义的关键环节。
 现有研究多利用深度神经网络模型进行事件关系提取任务，取得了一定进展，针对共指关系、因果关系以及时间关系等常见的类型，其方法已趋于成熟。然而，对于多类别事件关系的研究还是有限，且大多数中文相关研究依赖人工标注数据，受困于语料稀缺性以及中文特殊的语言特点（如语法复杂性、语义依赖性和词汇歧义性）。这对基于英语发展起来的先进方法适配中文提出了挑战。
研究目的
 本文提出了解决上述挑战的新范式，旨在通过编码器-解码器（Encoder-Decoder）框架实现中文多关系事件识别，以增强事件关系分类的性能，并进一步克服数据噪声干扰，提升方法的实用性和准确性。
研究工作流程本研究提出了新颖的编码器-解码器多关系识别框架（EDMRR），包括两个主要部分：事件编码器（Event Encoder）和关系解码器（Relation Decoder）。研究详细进行了以下工作：
1. 事件编码器(Event-Encoder)模块
 该模块分为两个部分：元素特征提取和语义特征解析。
元素特征提取
 本文首先通过预训练语言模型（例如BERT）生成初始表示，随后利用双向长短时记忆网络（BiLSTM）进行深层特征学习与语义吸收。针对序列标注任务，还采用了条件随机场（CRF）模型提升对标签间依赖关系的建模能力。最终提取的事件结构化表示包括事件触发词（trigger）、参数（arguments）以及对应的角色（roles）。
语义特征解析
 作者通过统计语法依赖树（DP树）以及语义依赖树（SDP树）分析句子结构，结合关键动词和语义框架构建语义-语法依赖图（SSDP图）。该图不仅包括触发词与参数关系，还整合了隐式语义依赖关系。这一过程确保生成的事件表示更具全面性和准确性。
2. 关系解码器(Relation-Decoder)模块
 该模块提升了多事件关系识别任务的表达能力，主要包括以下步骤：
事件增强表示
 依据事件编码器生成的元素特征，利用主谓宾关系（Subject-Verb-Object, SBO）提取事件核心信息（事件恢复语句ERS）。此外，补充类型信息与参数（ERS+Args）形成完整的事件描述，解决了语义丢失的问题。
元素嵌入表示
 本文优化了原始BERT模型的三层嵌入层，新增事件核心元素嵌入与距离约束嵌入。优化后的五层嵌入表示增强了模型捕获事件隐含元素的能力，同时通过引入元素间的空间距离约束，提高了复杂事件特征学习能力。
关系分类器
 结合优化嵌入表示，研究通过线性层与二元交叉熵（Binary Cross Entropy）函数构建多关系分类器，增强模型的可解释性和鲁棒性。
研究主要结果实验数据及设定
 本文基于自构建的10,272份中文语料，包含40,766个事件与36,825个事件对，设计了六种事件关系：因果关系（Causality）、包含关系（Inclusion）、共指关系（Coreference）、时间相等关系（Temporal-Equal）、时间先后关系（Temporal-After）及提及关系（Mention）。实验结果如下：
事件编码表示性能
 
使用事件恢复语句（ERS）相较基本事件核心句（ECS），模型在Micro-F1上提升了3.05%。
 
将补充的参数（Args）加入ERS（即ERS+Args）后，进一步提升Micro-F1到84.89%，表明参数信息在捕获事件特征中的重要性。
 
优化嵌入层性能
 
引入事件核心元素与距离约束嵌入后，最终优化版（ORI+ECE+TDE）Micro-F1提升至84.97%，Macro-F1则为77.97%。
 
特殊难提取的“包含关系”F1分数提高了10.4%。
 
与经典BERT模型相比，本文优化后的模型普遍在噪声数据中表现更优，对低质量数据的鲁棒性显著增强。
 
扩展实验
 本文还在数据集中额外引入大量无关系事件对进行噪声仿真，实验结果表明，即使在加入80,000组噪声数据后，模型仍保持部分事件关系的高F1值，如提及关系F1达94%，验证了模型的抗噪性。
研究结论本文提出了一种基于编码器-解码器的新型中文事件关系抽取框架EDMRR，解决了语料稀缺和低质量数据带来的挑战。通过整合语法和语义特征构建SSDP树，并结合事件元素增强了事件表示能力和解析准确性。实验表明，该方法不仅在六类事件关系识别任务中取得优异表现，且在现实噪声环境中展示了极高的适用性和可靠性。此外，该框架具备良好的微调拓展能力，可适用于特定领域的事件关系识别任务。
研究亮点创新的编码器-解码器框架
 首次在中文多关系事件抽取任务中引入Encoder-Decoder Paradigm，连接事件检测与关系分类两大任务。
语法语义联合特征解析
 利用SSDP图捕获事件的多维特征，增强了事件元素间语义依赖建模的能力。
强抗噪性
 实验验证了模型对低质量数据的鲁棒性，适用于现实复杂环境下的任务。
简化标注依赖
 通过事件恢复及增强表示（ERS+Args）的设计，大幅缓解模型对人工标注依赖问题，提高了普适性。
本文研究验证了EDMRR框架应用于自然语言处理和知识图谱构建中的潜力，为中文事件关系抽取研究提供了创新思路与实践价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问