分享自:

中文隐喻数据集与注释基础用于提升隐喻生成

期刊:lrec-coling 2024

本文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:


研究作者及机构
本研究由Yujie Shao、Xinrong Yao、Xingwei Qu等作者共同完成,参与机构包括香港科技大学(HKUST)、加州大学圣地亚哥分校(University of California, San Diego)、麻省理工学院(Massachusetts Institute of Technology)等。该研究于2024年5月20日至25日发表在LREC-COLING 2024会议论文集上,页码为3357-3366。

学术背景
隐喻(Metaphor)是人类语言和文学中一种重要的修辞手段,能够通过比较不同对象或概念来增强表达的生动性和理解性。随着计算语言学的发展,机器学习技术在隐喻生成中的应用逐渐受到关注,尤其是在聊天机器人等场景中。然而,现有的中文隐喻语料库(Corpus)存在数量不足和标注粒度不够精细的问题,难以支持高质量的中文隐喻生成研究。因此,本研究旨在构建一个大规模、高质量的中文隐喻语料库(CMDaG),并通过引入“喻意”(Ground)作为链式思维(Chain of Thought, CoT)的输入,提升隐喻生成模型的性能。

研究目标
本研究的主要目标是:
1. 构建一个包含约28,000个句子的中文隐喻语料库(CMDaG),涵盖诗歌、散文、歌词等多种文学形式。
2. 设计一套详细的隐喻标注指南,确保标注的准确性和一致性,包括对“本体”(Tenor)、“喻体”(Vehicle)和“喻意”(Ground)的标注。
3. 通过引入“喻意”作为链式思维(CoT)输入,探索其在隐喻生成中的作用,并测试生成模型(如Belle、Baichuan、Chinese-Alpaca-33B)在隐喻生成任务中的表现。

研究流程
1. 数据收集
研究团队从多种中文文学来源(如散文、诗歌、歌词等)收集了约153,000个可能包含隐喻的句子。通过启发式规则(如包含中文比喻词“像”、“好似”等)和依赖解析(Dependency Parsing)方法,筛选出潜在的隐喻句子。

  1. 数据标注
    标注过程分为两个阶段:

    • 初步标注:由20名中国大学生组成的团队对句子进行初步筛选,标注出可能的“本体”和“喻体”。
    • 精细标注:由具有中文文学背景的专业标注者进一步标注“喻意”,确保标注的精确性。每个句子至少由三名标注者进行标注,以提高标注的一致性。
      标注结果以三元组(本体、喻体、喻意)的形式保存,例如“天上的云像奔腾的骏马”被标注为(云、奔腾的骏马、相似的形态)。
  2. 模型测试
    研究团队使用CMDaG语料库测试了多种生成模型(如Belle、Baichuan、Chinese-Alpaca-33B)在隐喻生成任务中的表现。测试分为两个任务:

    • 任务1:喻意识别:给定“本体”和“喻体”,生成对应的隐喻句子。
    • 任务2:喻体识别:给定“本体”和“喻意”,生成对应的隐喻句子。
      通过链式思维(CoT)提示技术,研究团队评估了“喻意”在隐喻生成中的作用。
  3. 数据分析与评估
    研究团队通过人类专家评估模型生成的隐喻句子的质量,评估标准包括清晰度(Clarity)、创造力(Creativity)和表达真实性(Authentic Expression)。此外,还计算了模型生成合理隐喻句子的百分比。

主要结果
1. 语料库构建
CMDaG语料库最终包含27,989个标注完整的隐喻句子,涵盖多种文学形式。标注结果表明,引入“喻意”作为标注元素能够显著提升隐喻生成的直观性和创造性。

  1. 模型表现

    • 任务1:Baichuan模型在清晰度和创造力方面表现最佳,生成合理隐喻句子的百分比为2.94%。
    • 任务2:GPT-4模型在生成合理隐喻句子的百分比上表现最优,达到0.548%。
      总体而言,引入“喻意”作为链式思维(CoT)输入能够提高模型生成合理隐喻句子的概率,但在创造力和表达真实性方面略有下降。
  2. 评估标准相关性
    专家评估结果表明,创造力是评估隐喻生成质量的重要指标。与任务1相比,任务2中清晰度的相关性更高,表明在隐喻生成任务中,清晰度的重要性不容忽视。

结论与意义
本研究构建了一个高质量的中文隐喻语料库(CMDaG),并通过引入“喻意”作为链式思维(CoT)输入,探索了其在隐喻生成中的作用。实验结果表明,CMDaG语料库能够有效支持中文隐喻生成研究,并为未来的隐喻生成模型提供了重要的数据基础。此外,本研究还揭示了“喻意”在隐喻生成中的潜力,为相关领域的研究提供了新的思路。

研究亮点
1. 高质量语料库:CMDaG是首个包含“本体”、“喻体”和“喻意”三元组标注的中文隐喻语料库,标注规模和质量均达到较高水平。
2. 创新方法:引入“喻意”作为链式思维(CoT)输入,突破了传统隐喻生成方法中仅依赖“本体”和“喻体”的限制。
3. 广泛适用性:CMDaG语料库涵盖了多种文学形式,能够支持多种中文隐喻生成任务的研究。

其他有价值内容
本研究还提供了详细的隐喻标注指南和开源代码,为其他研究者提供了便利。未来研究方向包括进一步优化“喻意”在隐喻生成中的应用,以及探索更大规模和多样化的隐喻语料库。


以上为对该研究的全面报告。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com