分享自:

可控文本生成:评估年龄适应性对话的即插即用方法

期刊:Proceedings of the 2nd Workshop on Natural Language Generation, Evaluation, and Metrics (GEM)

本文介绍了一项关于可控文本生成(Controllable Text Generation, CTG)的研究,旨在探讨如何通过预训练语言模型(Pre-trained Language Models, PLMs)生成适应不同年龄段的对话响应。该研究由Lennert Jansen、Štěpán Lars Laichter、Arabella Sinclair、Margot J. van der Goot、Raquel Fernández和Sandro Pezzelle等人合作完成,分别来自阿姆斯特丹大学和阿伯丁大学。该研究发表于2022年12月7日的第二届自然语言生成、评估与度量研讨会(GEM)上,由计算语言学协会(Association for Computational Linguistics)出版。

研究背景与动机

对话系统的开发一直是人工智能领域的重要目标之一,尤其是如何使对话系统能够模仿用户的说话风格和语言特征,以增强系统的自然性和可信度。尽管现有的对话模型已经能够通过隐式或显式的方式捕捉用户的个性化特征(如年龄、性别、地理位置等),但在生成过程中控制细粒度语言特征仍然是一个挑战。近年来,利用预训练语言模型(PLMs)来适应文本的主题或情感已经取得了一定的成功。然而,针对更高层次的语言变化维度(如说话者的年龄)的研究仍然较少。

本研究首次探讨了如何通过可控文本生成技术来捕捉与年龄相关的语言变化。研究者假设,年龄相关的语言特征比情感或主题等维度更为抽象和复杂,因此需要更复杂的适应策略。为此,研究者采用了“即插即用语言模型”(Plug-and-Play Language Model, PPLM)方法,通过不改变预训练语言模型的参数,生成适应不同年龄段的对话响应。

研究方法与流程

研究的主要任务是在给定对话提示(prompt)的情况下,生成适应特定年龄段的对话响应。研究者使用了两种预训练语言模型:GPT-2和DialoGPT,并通过两种属性模型(基于词袋模型Bag-of-Words, BoW和神经判别器Discriminator, Disc)来控制生成过程。

  1. 数据准备:研究使用了来自英国国家语料库(British National Corpus, BNC)的对话数据,包含来自两个年龄组(19-29岁和50岁以上)的172,303条对话语句。研究者通过频率分析提取了与年龄组相关的词汇列表,用于BoW模型。对于Disc模型,研究者训练了一个神经网络分类器来区分不同年龄组的对话语句。

  2. 生成过程:在非自适应设置下,模型仅根据提示生成响应。在年龄自适应设置下,模型通过BoW或Disc属性模型来引导生成过程,确保生成的响应符合目标年龄组的语言特征。

  3. 评估方法:研究者通过自动评估和人工评估两种方式来衡量生成响应的年龄适应性和语言质量。自动评估使用了BERT分类器来检测生成响应中的年龄特征,并通过困惑度(Perplexity, PPL)和文本多样性(Distinct n-grams, Dist-n)来衡量语言质量。人工评估则通过众包实验,让参与者判断生成响应的年龄适应性和语言质量。

主要结果

  1. 年龄适应性:自动评估结果显示,基于神经判别器(Disc)的模型在检测年龄特征方面表现优于基于词袋模型(BoW)的模型,尤其是在适应老年组语言时。然而,人工评估结果显示,人类参与者只能部分检测到BoW模型生成的年龄差异,而Disc模型生成的响应则几乎无法被人类识别。

  2. 语言质量:BoW模型生成的响应在语言流畅性和多样性方面表现更好,而Disc模型生成的响应则显得较为重复且不够流畅。尽管BoW模型在语言质量上表现更优,但其生成的响应在人类评估中并未被系统性地认为更好。

  3. 模型比较:在人类评估中,BoW模型生成的响应被认为比Disc模型生成的响应更好,尤其是在适应年轻组语言时。然而,对于老年组语言,BoW和Disc模型的表现差异不大。

结论与意义

本研究首次探讨了如何通过可控文本生成技术来捕捉与年龄相关的语言变化。研究结果表明,尽管自动评估显示模型能够在一定程度上适应年龄特征,但人类参与者只能部分检测到这些差异。此外,简单的BoW方法在语言质量和年龄适应性之间取得了较好的平衡,而复杂的Disc方法虽然在自动评估中表现更好,但在人类评估中表现较差。

从更广泛的角度来看,本研究揭示了控制高维度语言变化的挑战,尤其是在涉及抽象和细粒度特征时。研究还强调了在自然语言生成(NLG)评估中结合自动分析和人工评估的重要性,以确保生成的语言既符合目标特征,又具有高质量。

研究亮点

  1. 创新性:本研究首次探讨了如何通过可控文本生成技术来捕捉与年龄相关的语言变化,填补了这一领域的研究空白。
  2. 方法新颖:研究者采用了PPLM方法,通过不改变预训练语言模型的参数来控制生成过程,展示了该方法在对话生成中的潜力。
  3. 评估全面:研究结合了自动评估和人工评估,全面分析了生成响应的年龄适应性和语言质量,为未来的NLG评估提供了参考。

未来工作

研究者指出,未来的工作可以进一步探讨不同提示对生成结果的影响,以及如何在多轮对话中更好地利用对话特征。此外,还可以尝试其他可控文本生成方法,以进一步验证本研究的结论。

本研究为开发更具适应性和自然性的对话系统提供了重要的理论和实践基础,尤其是在处理与年龄相关的语言变化方面。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com