分享自:

基于非残差提示的细粒度可控文本生成

期刊:proceedings of the 60th annual meeting of the association for computational linguistics

本文介绍的研究由Fredrik Carlsson、Joey Öhman、Fangyu Liu、Séverine Verlinden、Joakim Nivre和Magnus Sahlgren共同完成,分别来自瑞典研究机构(Research Institutes of Sweden)、AI Sweden和剑桥大学(University of Cambridge)。该研究发表于2022年5月22日至27日举行的第60届计算语言学协会年会(ACL 2022)上,论文标题为《Fine-grained Controllable Text Generation using Non-residual Prompting》。

研究背景

随着大规模因果语言模型(Causal Language Models, CLMs)的引入,开放式文本生成(open-ended text generation)重新引起了广泛关注。然而,如何控制这些基于Transformer的模型的生成过程仍然是一个未解决的难题。现有的方法要么依赖于即插即用的解码策略,要么依赖于更强大但较为粗糙的提示(prompting)方法。这导致了在细粒度控制和表达能力之间的权衡。为了缓解这一问题,本文提出了一种编码器-解码器架构,允许在任意时间步引入中间文本提示,从而实现对生成过程的更精细控制。

研究目标

本文的主要目标是开发一种能够在生成过程中灵活引入提示的架构,从而在保持生成文本流畅性的同时,实现对生成内容的细粒度控制。具体来说,研究旨在解决以下问题: 1. 如何在不牺牲生成质量的情况下,实现对生成过程的细粒度控制? 2. 如何通过提示机制在生成过程中引入高层次的指令? 3. 如何设计一种资源高效的方法,将预训练的因果语言模型转换为支持细粒度提示的架构?

研究方法

本文提出了一种基于非残差注意力(non-residual attention)的编码器-解码器架构。该架构的核心思想是通过一个独立的“提示模型”(prompt model)来生成位置不变的键值对(key-values),这些键值对通过非残差注意力机制影响解码器的生成过程。具体来说,模型在生成过程中维护两个信息流:文本流和非残差流。文本流与传统的自注意力机制相同,而非残差流则同时关注文本流和提示模型的输出,从而实现对生成过程的控制。

为了将预训练的因果语言模型转换为这种架构,本文提出了一种资源高效的自我监督方法。该方法分为四个阶段:初始化、预训练、位置不变变换的引入以及可选的微调。在预训练阶段,模型首先在单句数据上进行训练,随后在长上下文数据上学习位置不变变换。这种方法无需标注数据,且计算资源需求较低。

实验结果

本文在多个实验设置下验证了所提出方法的有效性,包括在CommonGen数据集上的标准词包含任务(word inclusion task)以及新提出的上下文词包含任务(contextualized word inclusion task)。实验结果表明,本文提出的方法在多个指标上均表现出色,尤其是在生成文本的覆盖率和流畅性方面。具体来说,本文的方法在CommonGen数据集上的词包含任务中,覆盖率达到了98.4%,显著优于其他基线方法。此外,在上下文词包含任务中,本文的方法也表现出了较强的上下文适应能力。

结论

本文提出了一种基于非残差注意力的编码器-解码器架构,能够在不牺牲生成质量的情况下,实现对生成过程的细粒度控制。通过引入位置不变变换,本文的方法能够在生成过程中灵活应用提示,从而在多个任务中表现出色。此外,本文还提出了一个新的上下文词包含任务,并通过实验验证了该任务的挑战性。

研究亮点

  1. 非残差注意力机制:本文提出的非残差注意力机制允许在生成过程中灵活引入提示,且不会影响后续生成步骤的隐藏状态。
  2. 资源高效的模型转换方法:本文提出了一种无需标注数据的自我监督方法,能够将预训练的因果语言模型转换为支持细粒度提示的架构。
  3. 上下文词包含任务:本文提出了一个新的任务,要求生成的文本不仅包含目标词,还要符合给定的上下文,进一步推动了可控文本生成领域的研究。

研究意义

本文的研究为可控文本生成提供了一种新的解决方案,具有重要的科学和应用价值。在科学上,本文提出的非残差注意力机制为未来的研究提供了新的思路,尤其是在多任务提示学习和上下文感知生成方面。在应用上,本文的方法可以用于生成符合特定要求的文本,如故事生成、数据到文本生成等,具有广泛的应用前景。

未来工作

未来的研究可以进一步探索多任务提示学习的可能性,尤其是在需要精确控制生成内容的场景中。此外,还可以研究不同的位置编码方案,以进一步提高模型的生成能力和效率。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com