本文介绍了一项由Jinran Nie、Liner Yang、Yun Chen、Cunliang Kong、Junhui Zhu和Erhong Yang等研究人员共同完成的研究,题为《Lexical Complexity Controlled Sentence Generation for Language Learning》。该研究发表于2023年8月3日至5日在中国哈尔滨举行的第22届中国计算语言学会议(China National Conference on Computational Linguistics)上,并收录于会议论文集第648至664页。研究得到了国家语委科研项目(No. ZDI145-24)的资助。
在语言教学和习得领域,教师和教材编写者需要为不同语言水平的学习者设计合适的例句。这些例句不仅需要流畅且语义一致,还必须使用特定复杂度的词汇。然而,手动设计这些例句非常耗时且繁琐。因此,自动生成符合词汇复杂度要求的例句成为了一个重要的研究方向。本研究提出了一种新的任务——词汇复杂度控制的句子生成(Lexical Complexity Controlled Sentence Generation),旨在通过控制词汇复杂度生成流畅且语义一致的句子,以支持语言教学和分级阅读材料的开发。
本研究提出了基于复杂度嵌入(Complexity Embedding, CE)的方法,通过将词汇复杂度信息融入模型,实现对生成句子中词汇复杂度的精确控制。具体流程如下:
问题定义:给定一组关键词和词汇复杂度级别,生成包含这些关键词且仅使用指定复杂度词汇的句子。任务的核心挑战在于如何在生成过程中同时满足关键词的语义约束和词汇复杂度的形式约束。
复杂度嵌入:为了增强模型对词汇复杂度的感知能力,研究者设计了复杂度嵌入方法。每个词汇的复杂度级别通过可训练的嵌入向量表示,并与词汇嵌入和位置嵌入结合,形成最终的输入表示。此外,输入序列中还插入了与复杂度级别对应的特殊标记,以控制生成句子的复杂度。
训练与推理:在训练过程中,复杂度嵌入层与模型的其他参数一起训练。对于预训练模型,研究者首先固定原始参数,单独训练复杂度嵌入层,然后对整个模型进行微调。在推理阶段,模型通过查找表将预测的词汇ID映射到复杂度ID,以确保生成句子中的词汇符合指定的复杂度要求。
长度与句法复杂度控制:为了进一步控制生成句子的长度和句法复杂度,研究者在解码阶段引入了长度惩罚机制。根据设定的句子长度模式(短、正常、长),动态调整生成句子的长度和句法复杂度。
为了支持该任务的研究,研究者构建了英语和汉语两个数据集。英语数据集基于ACL2019 WMT中的单语新闻语料,汉语数据集则来自500本对外汉语教材。每个数据集中的句子都被标注了词汇复杂度级别和关键词。研究者还设计了四个评估指标,分别用于评估生成句子的关键词约束、词汇复杂度约束和复杂度级别约束的满足情况。
实验结果表明,基于复杂度嵌入的方法在控制词汇复杂度和生成质量方面均优于基线方法。特别是在生成句子的流畅性和复杂度控制的精确性上,复杂度嵌入方法表现尤为突出。此外,研究者还通过人工评估进一步验证了生成句子的语义一致性、流畅性和多样性。
本研究的主要贡献包括: 1. 提出了词汇复杂度控制的句子生成任务,并构建了英语和汉语两个数据集。 2. 设计了基于复杂度嵌入的新方法,显著提升了生成句子中词汇复杂度的控制能力。 3. 实验结果表明,复杂度嵌入方法在词汇复杂度控制和生成质量方面均优于现有方法。
该研究为语言教学和分级阅读材料的自动生成提供了新的思路和方法,具有重要的学术和应用价值。
本研究通过引入复杂度嵌入方法,成功实现了对生成句子中词汇复杂度的精确控制。实验结果表明,该方法在生成质量和复杂度控制方面均优于现有方法,为语言教学和分级阅读材料的自动生成提供了新的解决方案。未来的研究可以进一步探索如何自动识别词汇复杂度,以扩大生成句子的词汇覆盖范围。