本文介绍了一项由Jasper Dekoninck、Marc Fischer、Luca Beurer-Kellner和Martin Vechev等来自瑞士苏黎世联邦理工学院(ETH Zurich)计算机科学系的研究团队所进行的研究。该研究发表在2024年的国际学习表征会议(ICLR 2024)上,题为《通过语言模型算术实现受控文本生成》(Controlled Text Generation via Language Model Arithmetic)。这项研究的主要目标是解决大语言模型(LLMs)在生成文本时难以精确控制词汇、风格和情感等问题,提出了一种名为“模型算术”(Model Arithmetic)的新型推理框架。
随着大语言模型(LLMs)的广泛应用,如何根据特定需求定制生成的文本内容变得越来越重要。现有的方法主要包括提示(Prompting)和微调(Fine-tuning),但这些方法存在一定的局限性。提示方法虽然简单,但难以精确控制生成文本的属性强度;而微调方法则需要大量特定数据集,且难以灵活调整。受控文本生成(Controlled Text Generation, CTG)技术通过在推理过程中对模型进行引导,试图解决这些问题,但现有的CTG方法在表达能力、效率和可解释性方面仍存在不足。
研究团队提出了“模型算术”框架,该框架允许在不重新训练模型或使用特定数据集的情况下,通过组合多个语言模型来实现对生成文本的精确控制。模型算术的核心思想是通过公式化的方式将多个模型的输出进行组合,从而实现对生成文本的精细调节。具体来说,模型算术允许用户通过简单的算术操作(如加、减、乘等)来组合不同的模型和属性,从而生成符合特定需求的文本。
研究还引入了“推测性采样”(Speculative Sampling)技术,以解决多模型组合带来的计算开销问题。推测性采样通过延迟对复杂模型的计算,显著减少了推理时间,使得多模型组合的文本生成效率大幅提升。
研究团队通过实验验证了模型算术的有效性。实验结果表明,模型算术在毒性减少任务上优于现有的最先进方法,并且能够实现对生成文本的精细控制。例如,通过模型算术,研究人员能够生成既符合儿童阅读水平又具有魔法元素的童话故事,而现有的CTG方法难以实现这种复杂的组合控制。
此外,研究还展示了推测性采样在模型算术中的应用效果。实验表明,推测性采样能够将模型调用的次数减少多达64%,从而显著提高了文本生成的效率。
模型算术为组合多个语言模型和受控生成属性提供了一个新颖的框架,能够实现对生成文本的精确控制。该框架不仅能够表达现有的CTG技术,还通过引入“模型联合操作符”(Union Operator)等新方法,显著提升了毒性减少等任务的效果。此外,推测性采样的引入使得多模型组合的推理效率大幅提升,减少了计算开销。
模型算术不仅为大语言模型的受控文本生成提供了新的工具,还为未来的研究开辟了新的方向。通过模型算术,研究人员和开发者可以更灵活地控制生成文本的属性和风格,从而在聊天机器人、内容生成等应用中实现更精准的定制化输出。尽管模型算术可能被滥用来生成不良内容,但其带来的精确控制和表达能力无疑为生成更安全、更包容的文本内容提供了重要工具。
这项研究为大语言模型的受控文本生成提供了新的思路和方法,具有重要的学术和应用价值。