本文由Sheng Xu、Peifeng Li和Qiaoming Zhu撰写,隶属于苏州大学计算机科学与技术学院。文章发表在“Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP 2022)”上,页码为6765-6775,发表时间为2022年12月7日至11日。
本文聚焦于自然语言处理领域中的事件共指解析(Event Coreference Resolution, ECR)问题,这是指在单个文档内将提到相同现实世界事件的不同事件提及(event mentions, 即触发词)聚类为同一组。事件共指解析在信息抽取和聚合中至关重要,并且可广泛应用于抽象生成(例如文摘生成)、事件核心检测及篇章分析等领域。
ECR任务近年来得益于深度学习模型的快速发展,取得了一定的进步。然而,现有方法仍然面临以下两大挑战: 1. 编码长度限制:传统方法或基于句子级上下文构建成对模型,或将文档拆分为多个片段分别编码,从而难以捕捉长距离事件提及之间的相互作用和上下文线索。 2. 缺乏高层信息:现有方法在事件表示学习中往往忽略主题级别(topic-level)的信息,从而难以准确识别核心事件链中的事件共指。
本文旨在通过结合文档级、句子级与主题级信息来改进事件共指解析模型。具体目标如下: - 应用基于Longformer的编码器获取文档级嵌入; - 引入触发词掩蔽机制以挖掘句子级嵌入; - 提出事件主题生成器(Event Topic Generator, ETG)以推测事件的潜在主题分布; - 使用多张量匹配方法捕捉这些多层次嵌入之间的交互关系。
研究工作分为以下几个主要部分:
使用Longformer模型对文档进行整体处理,解决了现有方法在事件表示学习中由于文档拆分带来的语义上下文丢失问题。具体方法是将整个文档输入Longformer预训练模型,通过滑动窗口的注意力机制(sliding window attention)捕捉事件提及之间的全局交互关系及其语义互动。对于多词组成的事件提及,模型采用注意力机制对每个词的隐藏向量进行加权求和,生成文档级嵌入。
文档级嵌入虽能提供全局语境,但无法充分捕捉事件触发词所在局部上下文中的细粒度信息。为弥补这一短板,本文引入了一种触发词掩蔽机制,将事件的触发词用[MASK]标记代替,强制模型基于局部上下文线索推测事件的子类型(Subtype)。这种设计有效避免了因单纯记住触发词与子类型简短映射关系而导致模型泛化性能受限的问题。模型通过Softmax预测事件子类型的概率,同时在训练阶段引入交叉熵损失以强化监督信号。
为解决仅依赖句子级和文档级信息时难以识别长距离主事件共指链的问题,本文引入了一种基于变分自编码器(Variational Autoencoder, VAE)的事件主题生成器。不同于传统主题模型(如LDA),ETG假设事件的主题分布符合Fisher球面分布(Von Mises-Fisher, vMF)。生成器通过对局部上下文中的名词和动词构建词袋(Bag-Of-Words, BOW)表示,并编码出事件的潜在主题分布。ETG设计的目的在于通过主题级分布的相似性捕捉共指事件的内在关联性。
模型对事件提及的跨层次嵌入(文档级、句子级和主题级)进行串联,然后通过两种张量匹配方法获取事件之间的语义关系: - 元素逐点乘法; - 多视角余弦相似度。
这些语义匹配被输入到Softmax层中,用于预测事件提及的共指概率。最终使用贪心聚类算法将所有事件提及归类为不同的事件群组。
本文在KBP 2017数据集上进行了验证实验,并使用2015和2016年的KBP数据集对模型进行了训练和参数调优。实验基准包括传统的成对模型和基于段级上下文的模型。评价指标包括多个ECR核心指标(MUC、B³、CEAF、BLANC等)以及触发词检测性能的精确度、召回率和微平均F1分数。
实验结果表明,本文模型在平均F1分数(Avg-F)上显著领先于基准模型,提升幅度达到3.2。此外,文档级嵌入的引入显著改善了长距离事件提及对的共指判断,与基准段级上下文模型相比,事件对分类F1分数在所有距离段上均有提升。
本文的研究表明,通过结合文档、句子和主题信息,是提升事件共指解析性能的有效路径。引入事件主题生成器和基于全局文档上下文的事件编码器不仅解决了长距离事件共指链的识别难题,也表明在深度学习时代如何将高层语义信息与底层特征结合。
研究的科学价值: 1. 改善语言理解任务中的信息抽取能力; 2. 为相关领域如摘要生成和篇章分析提供了更准确的事件表示与逻辑线索。
应用价值: 1. 有助于舆情分析和事件趋势预测; 2. 可用于知识图谱中事件节点的自动归并。
本文也存在以下限制: 1. 错误传播:框架依赖于触发词检测与事件共指分类的流水线方式,存在错误传递问题。 2. 计算资源消耗高:由于同时使用了Longformer和BERT模型,训练和推理对计算资源的需求较高。
未来研究将关注于联合建模触发词检测和事件共指分类,并优化模型结构以降低资源消耗。