根据文档内容,该文档属于类型a,以下是基于该研究的中文学术报告:
此研究由以下作者完成:Qizhi Wan、Changxuan Wan、Keli Xiao、Rong Hu、Dexi Liu 和 Xiping Liu。这些作者分别隶属于江西财经大学的数据与知识工程重点实验室和信息技术学院,以及美国 Stony Brook University 的商学院。论文发表在 Information Sciences 期刊(Elsevier)上,卷号为 630,页码为 119-134,在线发布时间为 2023年2月6日。
本研究主要聚焦于自然语言处理(Natural Language Processing,NLP)领域,特别是信息抽取中的事件关系抽取问题。事件关系抽取对于信息提取、投资策略和问答系统等金融分析应用有重要意义。现有研究中,中文金融文本的事件关系抽取仍面临多种挑战,包括:
与其他领域相比,金融文本包含更多复杂的事件关系,这些关系对经济发展和社会影响具有重要意义。研究的动机在于如何全面且高效地解决这些问题,从而推动金融领域事件关系的抽取与认知。
本研究旨在定义金融文本中六种特有的事件关系类型,包括补充(Supplement)、程度(Degree)、策略(Strategy)、现象实例(Phenomenon-instance)、并列(Parataxis)和对比(Contrast),并开发一个整合框架 CFERE(Chinese Financial Event Relation Extraction)来联合实现多类型事件关系的提取与识别。
CFERE 框架由五个关键模块构成:
第一步,研究通过 LTP 工具生成句子的 DP 和语义依存解析(Semantic Dependency Parsing, SDP)树,并将 SDP 树的语义依赖关系加入 DP 树中,从而形成 SSDP 图。通过识别核心动词链,可提取事件谓词,并基于 SSDP 图连接分散的事件节点,同时补全因省略而遗漏的事件元素。以中文为例,省略现象在复杂句中相当普遍,研究通过对比级联事件关系重新生成关联元素。在修正后的 SSDP 图中,研究将核心动词链动态调整到相同层级,从而为后续事件关系识别提供一致的解析基础。
研究采用了预训练 Transformer 架构中的 BERT 模型(Bidirectional Encoder Representations from Transformers)。原始 BERT 模型仅具有默认的三层嵌入层:Token、Segment 和 Position。为了更好表达事件核心信息,研究在原始三层嵌入之上增加第四层 *事件核心嵌入层*,从而提升信息编码能力。同时,输入端也进行了两方面的优化:
研究选择财经新闻领域的新浪财经数据构建标注语料库,共包含 9,332 个事件及其对应的 5,021 条事件关系。标注过程中,3 位精通经济学的研究员参与标注,标注一致性(Kappa 系数)达到 92.03%。
通过微调的 CFERE 架构与其他主流深度学习模型(如 Bi-LSTM、GCN 和 ERNIE 等)进行对比,CFERE 在任务上的 F1 值明显高于其他模型,其微平均 F1 分数和宏平均 F1 分数分别达到 84.50% 和 77.33%。研究表明,通过加入事件核心嵌入层,增添更多语义信息的事件还原句输入方式,以及基于 SSDP 的事件提取方法,CFERE 相较其他优化方案在多类型事件关系提取任务中具有显著优势。
在六种事件关系类型中,补充、程度、策略和现象实例关系的 F1 值均超过 90%,这主要得益于金融领域的显性特征(如数字、趋势动词和企业名称等)。而因果关系、并列和对比关系的抽取相对复杂,但 F1 值也均达到 80% 左右,证实了 CFERE 在处理广义事件关系任务中的灵活性与鲁棒性。
本研究提出的 CFERE 框架在金融领域实现了首次联合事件提取和多类型事件关系的综合性方法。通过增强输入表达形式和设计事件核心层嵌入,研究显著提升了复杂语义理解与关联事件分类的有效性。
研究能够有效应用于大规模财经新闻中,支持金融分析工具进行知识挖掘、企业机会预判等任务。此外,在非标注语料配置中,该模型的无监督部分也表现出强大的适应性。
通过系统化的研究与多维度验证,CFERE 提供了一种全新的框架,用于解决金融文本中复杂的事件关系识别问题。在未来,研究将继续探索其推广到其他语言或领域的可能性。