中文隐喻数据集与注释基础用于提升隐喻生成

分享自：
中文隐喻数据集与注释基础用于提升隐喻生成

中国语言文学
文学
期刊:lrec-coling 2024
本文档属于类型a，即报告了一项原创研究。以下是针对该研究的学术报告：
研究作者及机构
 本研究由Yujie Shao、Xinrong Yao、Xingwei Qu等作者共同完成，参与机构包括香港科技大学（HKUST）、加州大学圣地亚哥分校（University of California, San Diego）、麻省理工学院（Massachusetts Institute of Technology）等。该研究于2024年5月20日至25日发表在LREC-COLING 2024会议论文集上，页码为3357-3366。
学术背景
 隐喻（Metaphor）是人类语言和文学中一种重要的修辞手段，能够通过比较不同对象或概念来增强表达的生动性和理解性。随着计算语言学的发展，机器学习技术在隐喻生成中的应用逐渐受到关注，尤其是在聊天机器人等场景中。然而，现有的中文隐喻语料库（Corpus）存在数量不足和标注粒度不够精细的问题，难以支持高质量的中文隐喻生成研究。因此，本研究旨在构建一个大规模、高质量的中文隐喻语料库（CMDaG），并通过引入“喻意”（Ground）作为链式思维（Chain of Thought, CoT）的输入，提升隐喻生成模型的性能。
研究目标
 本研究的主要目标是：
 1. 构建一个包含约28,000个句子的中文隐喻语料库（CMDaG），涵盖诗歌、散文、歌词等多种文学形式。
 2. 设计一套详细的隐喻标注指南，确保标注的准确性和一致性，包括对“本体”（Tenor）、“喻体”（Vehicle）和“喻意”（Ground）的标注。
 3. 通过引入“喻意”作为链式思维（CoT）输入，探索其在隐喻生成中的作用，并测试生成模型（如Belle、Baichuan、Chinese-Alpaca-33B）在隐喻生成任务中的表现。
研究流程
 1. 数据收集
 研究团队从多种中文文学来源（如散文、诗歌、歌词等）收集了约153,000个可能包含隐喻的句子。通过启发式规则（如包含中文比喻词“像”、“好似”等）和依赖解析（Dependency Parsing）方法，筛选出潜在的隐喻句子。
数据标注
 标注过程分为两个阶段：
初步标注：由20名中国大学生组成的团队对句子进行初步筛选，标注出可能的“本体”和“喻体”。
 
精细标注：由具有中文文学背景的专业标注者进一步标注“喻意”，确保标注的精确性。每个句子至少由三名标注者进行标注，以提高标注的一致性。
 标注结果以三元组（本体、喻体、喻意）的形式保存，例如“天上的云像奔腾的骏马”被标注为（云、奔腾的骏马、相似的形态）。
模型测试
 研究团队使用CMDaG语料库测试了多种生成模型（如Belle、Baichuan、Chinese-Alpaca-33B）在隐喻生成任务中的表现。测试分为两个任务：
任务1：喻意识别：给定“本体”和“喻体”，生成对应的隐喻句子。
 
任务2：喻体识别：给定“本体”和“喻意”，生成对应的隐喻句子。
 通过链式思维（CoT）提示技术，研究团队评估了“喻意”在隐喻生成中的作用。
数据分析与评估
 研究团队通过人类专家评估模型生成的隐喻句子的质量，评估标准包括清晰度（Clarity）、创造力（Creativity）和表达真实性（Authentic Expression）。此外，还计算了模型生成合理隐喻句子的百分比。
主要结果
 1. 语料库构建
 CMDaG语料库最终包含27,989个标注完整的隐喻句子，涵盖多种文学形式。标注结果表明，引入“喻意”作为标注元素能够显著提升隐喻生成的直观性和创造性。
模型表现
任务1：Baichuan模型在清晰度和创造力方面表现最佳，生成合理隐喻句子的百分比为2.94%。
 
任务2：GPT-4模型在生成合理隐喻句子的百分比上表现最优，达到0.548%。
 总体而言，引入“喻意”作为链式思维（CoT）输入能够提高模型生成合理隐喻句子的概率，但在创造力和表达真实性方面略有下降。
评估标准相关性
 专家评估结果表明，创造力是评估隐喻生成质量的重要指标。与任务1相比，任务2中清晰度的相关性更高，表明在隐喻生成任务中，清晰度的重要性不容忽视。
结论与意义
 本研究构建了一个高质量的中文隐喻语料库（CMDaG），并通过引入“喻意”作为链式思维（CoT）输入，探索了其在隐喻生成中的作用。实验结果表明，CMDaG语料库能够有效支持中文隐喻生成研究，并为未来的隐喻生成模型提供了重要的数据基础。此外，本研究还揭示了“喻意”在隐喻生成中的潜力，为相关领域的研究提供了新的思路。
研究亮点
 1. 高质量语料库：CMDaG是首个包含“本体”、“喻体”和“喻意”三元组标注的中文隐喻语料库，标注规模和质量均达到较高水平。
 2. 创新方法：引入“喻意”作为链式思维（CoT）输入，突破了传统隐喻生成方法中仅依赖“本体”和“喻体”的限制。
 3. 广泛适用性：CMDaG语料库涵盖了多种文学形式，能够支持多种中文隐喻生成任务的研究。
其他有价值内容
 本研究还提供了详细的隐喻标注指南和开源代码，为其他研究者提供了便利。未来研究方向包括进一步优化“喻意”在隐喻生成中的应用，以及探索更大规模和多样化的隐喻语料库。
以上为对该研究的全面报告。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问