本文介绍了一项由Xiang Lisa Li、John Thickstun、Ishaan Gulrajani、Percy Liang和Tatsunori B. Hashimoto等来自斯坦福大学的研究团队在2022年第36届神经信息处理系统会议(NeurIPS 2022)上发表的原创研究。该研究提出了一种基于连续扩散(continuous diffusion)的新型语言模型——Diffusion-LM,旨在解决自然语言生成中的可控性问题,特别是在复杂、细粒度的控制任务中表现出色。
近年来,大型自回归语言模型(如GPT-3)在生成高质量文本方面取得了显著进展。然而,这些模型在实际应用中的可控性仍然是一个重大挑战。现有的方法通常通过微调模型来实现控制,但这种方法成本高昂且难以组合多个控制任务(例如生成既具有积极情感又无毒的文本)。因此,研究团队提出了一种轻量级、模块化的“即插即用”方法,通过外部分类器来引导生成过程,而无需重新训练模型。
Diffusion-LM的提出基于连续扩散模型在视觉和音频领域的成功应用。尽管扩散模型在这些连续数据领域表现出色,但由于文本的离散性,其在文本生成中的应用尚未得到充分探索。Diffusion-LM通过将高斯噪声向量逐步去噪为词向量,生成一系列中间潜在变量,从而实现了对复杂控制任务的高效处理。
Diffusion-LM的核心思想是通过连续扩散过程生成文本。具体来说,模型从一系列高斯噪声向量开始,逐步去噪,最终生成与单词对应的向量。这一过程产生了一系列连续的潜在变量,这些变量的层次性和连续性使得基于梯度的控制方法能够有效应用于复杂的生成任务。
研究团队对标准扩散模型进行了多项改进,以适应文本生成的需求。首先,他们引入了嵌入(embedding)步骤和舍入(rounding)步骤,设计了端到端的训练目标来学习嵌入,并提出了减少舍入误差的技术。其次,Diffusion-LM通过梯度更新中间潜在变量来实现控制,确保生成的文本既流畅又满足控制要求。
研究团队在六个具有挑战性的细粒度控制任务上测试了Diffusion-LM的性能,包括语义内容、词性、句法树、句法跨度、长度控制和填充任务。实验结果表明,Diffusion-LM在这些任务上的成功率显著优于现有的“即插即用”方法,并且在某些任务上甚至超过了微调模型的表现。
具体来说,Diffusion-LM在控制句法树和句法跨度等复杂任务上表现尤为突出。这些任务要求模型能够全局规划生成过程,而Diffusion-LM的非自回归特性使其能够轻松应对这些挑战。此外,Diffusion-LM还能够成功组合多个控制任务,例如同时控制语义内容和句法结构。
Diffusion-LM的提出为可控文本生成提供了一种新的范式。通过引入连续扩散模型,研究团队成功实现了对复杂、细粒度控制任务的高效处理。这一方法不仅在科学上具有重要价值,还为实际应用中的文本生成提供了新的可能性。例如,Diffusion-LM可以用于生成符合特定句法结构的文本,或者在特定上下文中填充缺失的句子。
尽管Diffusion-LM在控制任务上表现出色,但其在解码速度和训练收敛性方面仍存在一定的局限性。研究团队认为,随着后续工作的推进和优化,这些问题有望得到解决,从而使Diffusion-LM成为一种在大规模可控生成任务中具有竞争力的方法。
Diffusion-LM为可控文本生成领域带来了新的突破,展示了连续扩散模型在自然语言处理中的巨大潜力。