本文介绍了一项关于序列控制文本生成的研究,由Alexander Spangher(南加州大学)、Xinyu Hua、Yao Ming(Bloomberg)和Nanyun Peng(加州大学洛杉矶分校)共同完成。该研究发表于2022年12月7日至11日的EMNLP 2022会议,论文题为《Sequentially Controlled Text Generation》。
随着语言模型(如GPT-2)的快速发展,生成的文本在单句层面上已经非常接近人类的表达水平。然而,当生成较长的文档时,模型往往缺乏结构性,导致文本显得杂乱无章,无法像人类写作那样具有清晰的逻辑和结构。现有的研究主要集中在内容规划、关键词生成、情节设计等方面,但对宏观结构的控制研究相对较少。因此,本研究旨在探索如何通过序列控制来生成具有人类写作结构的文本,并研究不同层次的结构意识对生成文本质量的影响。
研究提出了一个新颖的任务——序列控制文本生成,并通过生成和编辑两个步骤来实现这一任务。具体流程如下:
任务定义:用户提供一个提示(如标题)和一系列局部控制代码(如Van Dijk的语篇标签),每个控制代码指导生成一个句子。目标是生成具有特定结构的文本,使其在控制准确性、语法性、连贯性和主题性上接近人类写作水平。
生成与编辑:研究开发了一个生成和编辑的管道。生成阶段通过结合预训练的语言模型和判别器来生成文本,判别器负责学习整个控制代码序列的结构信息。编辑阶段则通过局部控制技术进一步优化生成的句子,确保其符合预期的语篇结构。
结构意识的层次:研究测试了三种不同层次的结构意识:
数据集与语篇结构:研究使用了NewsDiscourse数据集,该数据集包含802篇新闻文章,每篇文章的句子都标注了Van Dijk的语篇标签(如“主要事件”、“后果”、“当前背景”等)。通过这些标签,模型能够学习新闻文章的结构。
研究结果表明,结构意识对生成文本的质量有显著影响。具体发现如下: 1. 结构意识提升文本质量:全序列控制生成的文本在语法性、连贯性和主题性上表现最佳,而过去感知控制则在控制准确性上表现最好。 2. 编辑的作用:编辑操作能够进一步提升生成文本的局部控制准确性,尤其是在过去感知控制的情况下,编辑后的文本在控制准确性上接近人类写作水平。 3. 弱判别器仍能有效控制生成:尽管判别器的分类性能较弱(F1得分为0.61),但它仍然能够有效地控制生成过程,表明即使分类器性能有限,生成模型仍能受益于结构信息。
本研究首次提出了序列控制文本生成任务,并通过生成和编辑的结合,展示了如何通过结构意识生成高质量的文本。研究结果表明,更多的结构意识(尤其是过去感知控制)能够显著提升生成文本的质量。这一研究为未来的文本生成任务提供了新的方向,特别是在需要生成具有特定结构的文档时(如新闻报道、学术论文等),用户可以通过控制宏观结构来快速生成不同版本的内容。
研究为未来的文本生成任务开辟了多个方向,包括: 1. 用户控制生成结构:用户可以通过控制生成文本的宏观结构,快速生成不同版本的内容,满足不同读者的需求。 2. 与其他控制生成技术的结合:序列控制生成可以与其他控制生成技术(如事实感知生成、创意生成)结合,生成更具吸引力和实用性的内容。 3. 多语言与跨文化研究:未来的研究可以探索不同语言和文化背景下的语篇结构,进一步提升生成模型的普适性。
本研究为文本生成领域提供了新的思路和方法,展示了如何通过结构意识生成高质量的文本,具有重要的学术和应用价值。