基于非残差提示的细粒度可控文本生成

分享自：
基于非残差提示的细粒度可控文本生成

期刊:proceedings of the 60th annual meeting of the association for computational linguistics
本文介绍的研究由Fredrik Carlsson、Joey Öhman、Fangyu Liu、Séverine Verlinden、Joakim Nivre和Magnus Sahlgren共同完成，分别来自瑞典研究机构（Research Institutes of Sweden）、AI Sweden和剑桥大学（University of Cambridge）。该研究发表于2022年5月22日至27日举行的第60届计算语言学协会年会（ACL 2022）上，论文标题为《Fine-grained Controllable Text Generation using Non-residual Prompting》。
研究背景随着大规模因果语言模型（Causal Language Models, CLMs）的引入，开放式文本生成（open-ended text generation）重新引起了广泛关注。然而，如何控制这些基于Transformer的模型的生成过程仍然是一个未解决的难题。现有的方法要么依赖于即插即用的解码策略，要么依赖于更强大但较为粗糙的提示（prompting）方法。这导致了在细粒度控制和表达能力之间的权衡。为了缓解这一问题，本文提出了一种编码器-解码器架构，允许在任意时间步引入中间文本提示，从而实现对生成过程的更精细控制。
研究目标本文的主要目标是开发一种能够在生成过程中灵活引入提示的架构，从而在保持生成文本流畅性的同时，实现对生成内容的细粒度控制。具体来说，研究旨在解决以下问题： 1. 如何在不牺牲生成质量的情况下，实现对生成过程的细粒度控制？ 2. 如何通过提示机制在生成过程中引入高层次的指令？ 3. 如何设计一种资源高效的方法，将预训练的因果语言模型转换为支持细粒度提示的架构？
研究方法本文提出了一种基于非残差注意力（non-residual attention）的编码器-解码器架构。该架构的核心思想是通过一个独立的“提示模型”（prompt model）来生成位置不变的键值对（key-values），这些键值对通过非残差注意力机制影响解码器的生成过程。具体来说，模型在生成过程中维护两个信息流：文本流和非残差流。文本流与传统的自注意力机制相同，而非残差流则同时关注文本流和提示模型的输出，从而实现对生成过程的控制。
为了将预训练的因果语言模型转换为这种架构，本文提出了一种资源高效的自我监督方法。该方法分为四个阶段：初始化、预训练、位置不变变换的引入以及可选的微调。在预训练阶段，模型首先在单句数据上进行训练，随后在长上下文数据上学习位置不变变换。这种方法无需标注数据，且计算资源需求较低。
实验结果本文在多个实验设置下验证了所提出方法的有效性，包括在CommonGen数据集上的标准词包含任务（word inclusion task）以及新提出的上下文词包含任务（contextualized word inclusion task）。实验结果表明，本文提出的方法在多个指标上均表现出色，尤其是在生成文本的覆盖率和流畅性方面。具体来说，本文的方法在CommonGen数据集上的词包含任务中，覆盖率达到了98.4%，显著优于其他基线方法。此外，在上下文词包含任务中，本文的方法也表现出了较强的上下文适应能力。
结论本文提出了一种基于非残差注意力的编码器-解码器架构，能够在不牺牲生成质量的情况下，实现对生成过程的细粒度控制。通过引入位置不变变换，本文的方法能够在生成过程中灵活应用提示，从而在多个任务中表现出色。此外，本文还提出了一个新的上下文词包含任务，并通过实验验证了该任务的挑战性。
研究亮点非残差注意力机制：本文提出的非残差注意力机制允许在生成过程中灵活引入提示，且不会影响后续生成步骤的隐藏状态。
资源高效的模型转换方法：本文提出了一种无需标注数据的自我监督方法，能够将预训练的因果语言模型转换为支持细粒度提示的架构。
上下文词包含任务：本文提出了一个新的任务，要求生成的文本不仅包含目标词，还要符合给定的上下文，进一步推动了可控文本生成领域的研究。
研究意义本文的研究为可控文本生成提供了一种新的解决方案，具有重要的科学和应用价值。在科学上，本文提出的非残差注意力机制为未来的研究提供了新的思路，尤其是在多任务提示学习和上下文感知生成方面。在应用上，本文的方法可以用于生成符合特定要求的文本，如故事生成、数据到文本生成等，具有广泛的应用前景。
未来工作未来的研究可以进一步探索多任务提示学习的可能性，尤其是在需要精确控制生成内容的场景中。此外，还可以研究不同的位置编码方案，以进一步提高模型的生成能力和效率。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问