GPTScore：按需评估的文本生成评价框架

分享自：
GPTScore：按需评估的文本生成评价框架

期刊:Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics
GPTScore：一个基于生成式预训练模型的文本评估新范式一、 研究作者、机构与发表信息
本研究论文题为“GPTScore: Evaluate as You Desire”，由 Jinlan Fu (新加坡国立大学)，See-Kiong Ng (新加坡国立大学)，Zhengbao Jiang (卡内基梅隆大学) 和 Pengfei Liu (上海交通大学) 共同完成。该研究发表于 2024年6月16日至21日 举行的北美计算语言学协会人类语言技术大会（North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2024）的会议论文集（长论文卷）中，页码范围为6556至6576页。
二、 学术背景与研究目标
本研究属于自然语言处理 领域，核心关注生成文本的自动化评估问题。随着以GPT-3为代表的生成式人工智能技术的快速发展，模型生成高质量文本的能力已显著提升。然而，评估生成文本的质量比生成本身更为困难，且当前方法存在明显局限：1) 评估维度单一：多数现有评估器（Evaluator）仅针对特定方面（如流畅度）进行评估，难以满足用户对定制化、多维度评估的需求；2) 缺乏细粒度与定制化：少数多维度评估方法在定义评估方面及其相互关系方面缺乏严谨研究，且特定方面的评估通常与特定指标变体绑定，不够灵活；3) 依赖训练与标注：大多数现有方法需要复杂的监督训练或昂贵的样本人工标注，难以在工业场景中快速部署和适应新的评估需求。
针对上述挑战，本研究旨在探索一种新型的文本评估框架。该框架的核心目标是利用大规模生成式预训练语言模型所展现的涌现能力，实现一种无需训练、支持多维度且可高度定制的文本评估方法。研究团队提出了一种名为 GPTScore 的通用评估框架，其核心思想是：对于一个给定上下文（如源文本）和期望评估方面（如流畅性），更高质量的文本在该评估标准下，由模型生成的条件概率会更高。GPTScore旨在通过自然语言指令（Instruction）和上下文学习，让用户能够“随心所欲”地对文本进行评估。
三、 研究详细流程与方法
本研究是一个系统性评估现有方法并提出新框架的实验性工作，其工作流程主要包括以下步骤：
1. 提出GPTScore评估框架： * 核心定义：对于一个待评估的生成文本 ( h )，其上下文信息 ( s )（如源文本或参考文本），任务描述 ( d ) 和方面定义 ( a )，GPTScore被定义为在给定指令（由 ( d ) 和 ( a ) 构成）和上下文 ( s ) 的条件下，模型生成文本 ( h ) 的概率对数似然： GPTScore(h|d, a, s) = Σ_t w_t log p(h_t | h_{<t}, T(d, a, s), θ)。其中，( T(·) ) 是定义评估协议的提示模板，( w_t ) 是第t个令牌的权重（本研究设为均等），( θ ) 是预训练模型参数。 * 评估协议设计：为实现“按需评估”，GPTScore为每个评估任务构建一个评估协议。该协议基于三个要素：(a) 任务说明：描述文本如何生成（例如，“为以下文本生成摘要”）；(b) 方面定义：详细描述期望评估方面的细节（例如，“生成的文本应语法正确、书写良好”）；© 示范样本：少量标注良好的样本，用于教导模型何种样本是合格的。 * 支持零样本指令与上下文学习：模型可使用零样本指令（仅提供定义）或少样本演示（Few-shot with Demonstration）进行评估。少样本方式通过将示范样本加入提示模板来实现，以促进模型学习。 * 提示模板选择：对于GPT-3模型，研究采用OpenAI官方推荐的模板。对于其他指令微调模型（如Flan-T5），则采用NaturalInstructions中的提示作为基础，以确保与模型的预训练对齐。所有任务和评估方面的具体提示模板均在论文附录中提供。 * 评分维度选择：GPTScore存在不同的变体，例如，给定假设文本，可以计算基于源文本的条件概率（src->hypo），或基于参考文本的条件概率（ref->hypo）。本研究的选择标准主要与用于评估自动化指标可靠性的人工判断协议保持一致。
2. 实验设置与研究对象： * 元评估标准：采用斯皮尔曼等级相关和皮尔逊相关来衡量自动化指标得分与人工判断得分之间的相关性。 * 覆盖任务与数据集：为了全面评估，研究涵盖了4个主流自然语言生成任务：对话响应生成、文本摘要、数据到文本生成和机器翻译，共涉及 22 个评估方面和 37 个数据集。例如，对话任务使用FED数据集，摘要任务使用SummEval、RealSumm等数据集。 * 对比的基线模型：研究对比了多种经典和前沿的评估指标，包括： - 词重叠类：ROUGE-1/2/L。 - 嵌入相似度类：BERTScore，MoverScore。 - 其他方法：PRISM（用于机器翻译），DynaEval（用于对话生成）。 - 基于评分的模型：BARTScore 及其微调变体（BARTScore+CNN， BARTScore+CNN+Para）。 * GPTScore实现模型：研究探索了19个不同的预训练语言模型作为GPTScore的骨干，涵盖了4种架构，参数规模从8000万到1750亿不等。具体包括： - GPT-3系列：text-ada/babbage/curie/davinci-001 (A01/B01/C01/D01) 及 text-davinci-003 (D03)。 - OPT系列：OPT-350M， 1.3B， 6.7B， 13B， 66B。 - Flan-T5系列：Flan-T5-small/base/large/XL/XXL。 - GPT-2系列：GPT2-medium/large/XL 及 GPT-J-6B。 * 评估场景：对每个GPTScore模型，研究测试了三种设置：(a) Vanilla：不使用指令和演示；(b) Instruction：使用指令但无演示；© Instruction+Demonstration：同时使用指令和少量演示样本。
3. 实验分析与数据采集流程： * 对于每个任务数据集，研究从所有系统生成的文本中随机抽取一定数量样本（例如，摘要任务每个数据集40个，对话任务100个）来构建评估集，以控制GPT-3 API的调用成本。 * 计算每个评估指标（包括所有基线指标和GPTScore变体）在该评估集上的得分，并与该数据集对应的人工评分进行相关性计算。 * 对于每种模型和设置，报告其与人类评价的相关性（主要是斯皮尔曼相关），并通过自助采样法进行显著性检验，以判断性能提升是否具有统计显著性。 * 进行详尽的消融研究和分析，包括： - 探究演示样本数量（k）对评估性能的影响。 - 探究不同评估方面之间的相关性，并尝试通过组合多个高度相关方面的定义来提升目标方面的评估性能。
四、 主要研究结果
实验结果表明，GPTScore框架在多个任务和评估方面上展现出了卓越的性能和灵活性。具体结果如下：
1. 文本摘要任务（以SummEval数据集为例）： * 指令显著提升性能：在一致性、流畅性、相关性和连贯性四个评估方面，几乎所有GPTScore变体在使用指令后，其斯皮尔曼相关系数均显著优于未使用指令的设置（p值<0.05），且通常优于多数无监督基线方法。 * 超越有监督方法：许多配备了指令的GPTScore变体（特别是基于Flan-T5-large/XL/XXL和GPT-3的模型）在有监督基线方法BARTScore+CNN+Para上表现更优。例如，在SummEval的所有四个评估方面，配备了指令的Flan-T5-large/XL/XXL均显著超越了微调后的BARTScore+CNN+Para。 * GPT-3模型表现分析：总体而言，更大规模的模型（如GPT3-D01， 175B）性能更优。然而，一个有趣的发现是，未经人类反馈强化学习微调的GPT3-D01，在大部分评估设置下的表现优于经过RLHF微调的GPT3-D03。这表明RLHF微调在提升模型遵循人类指令生成内容能力的同时，可能在某些评估任务上削弱了其作为评估器的原始判别能力。
2. 数据到文本生成任务： * 指令与演示的结合效果：平均来看，使用指令能带来性能提升。在信息量、自然性和流畅性三个评估方面，进一步结合少量演示样本（Instruction+Demonstration）能带来额外的、显著的性能增益。 * 再次超越有监督模型：在SFRes数据集的自然性和流畅性评估方面，大多数配备了指令和演示的GPTScore变体都超过了有监督的BARTScore+CNN+Para。 * 演示样本的重要性与影响：研究也发现，演示样本的选择对评估性能影响很大。在某些数据集上，不当的演示样本可能导致性能下降。此外，在配备了演示的情况下，较小规模的GPT-3模型（如GPT3-C01， 6.7B）的表现可以超越大规模模型（如GPT3-D03）。
3. 对话响应生成任务： * 强大的泛化能力：GPTScore被用于评估对话系统中多达20个不同的维度（如趣味性、参与度、特定性、一致性、多样性、深度、喜爱度等）。实验表明，基于GPT-3的GPTScore模型在多维度评估中展现了强大的泛化能力。相比之下，BARTScore模型在对话任务上的评估基本失败。 * GPT3-D01 vs GPT3-D03：在此任务中，GPT3-D01的性能远优于GPT3-D03，在FED对话级数据集上的平均斯皮尔曼相关高出40.8个百分点，在对话轮次级高出5.5个百分点，进一步验证了关于RLHF微调可能影响评估性能的观察。 * 小模型媲美专业模型：参数量仅3.5亿的GPT3-A01（ada）在对话评估上的表现与专门在大量对话语料上微调的FED和DynaEval模型相当，突显了大规模预训练带来的通用评估潜力。
4. 消融研究结果： * 演示样本数量的影响：在机器翻译任务的评估中，引入演示样本能显著提升评估性能。性能增益随样本数（k）增加而提升，但在达到一定数量（如k=4）后趋于平缓。同时，研究注意到当演示样本极少（如k=1）时，小模型可能因示例的片面性而导致性能下降。 * 评估方面的相关性利用：一个关键发现是，可以通过组合多个高度相关的评估方面的定义来提升目标方面的评估性能。以对话中的“趣味性”为例，当将其定义与“参与度”、“特定性”、“正确性”、“相关性”等高度相关的方面定义结合后，使用参数量为67亿的GPT3-C01模型进行评估，其斯皮尔曼相关从30.8提升至51.4，甚至超过了使用单一“趣味性”定义的1750亿参数模型GPT3-D01（50.1）。这表明，通过精心设计组合式的评估指令，可以显著放大较小模型的评估能力。
五、 研究结论与价值
本研究的核心结论是：GPTScore框架成功地利用生成式预训练模型的涌现能力，为复杂多变的文本评估需求提供了一种强大、灵活且无需训练的解决方案。
其科学价值与应用价值体现在： 1. 方法论创新：提出了一种全新的、基于生成概率的文本评估范式，将评估问题转化为一个条件文本生成似然估计问题，充分利用了大模型的语义理解和指令跟随能力。 2. 解决长期挑战：GPTScore成功地解决了文本评估中长期存在的几个难题：如何实现无需训练的评估、如何支持用户高度定制化的评估维度、以及如何进行多维度综合评估。这极大地降低了构建高质量评估器的门槛。 3. 实践指导意义：通过对19个不同规模和架构模型的广泛实验，研究为如何选择模型、如何设计指令和演示、如何利用方面相关性等实际问题提供了丰富的经验和数据支持。 4. 对大模型的深入洞察：研究揭示了关于GPT-3系列模型的一个重要观察：经过人类反馈强化学习微调的模型（如text-davinci-003）在作为“评估器”时的表现可能不及其未经此微调的前代版本（如text-davinci-001）。这为理解RLHF对不同下游任务的影响提供了新的视角。 5. 开源贡献：作者公开了代码，促进了该研究方向的复现和后续发展。
六、 研究亮点
开创性的框架：首次系统性地提出并验证了利用生成式大模型的涌现能力进行无需训练、可定制、多维度文本评估的可行性，是评估方法学上的一个重要突破。
前所未有的广泛实验：研究覆盖了4个核心NLG任务、22个评估方面、37个数据集和19个不同规模与架构的预训练模型，实验规模宏大，结论坚实可靠。
关键发现： 发现了指令设计（尤其是组合相关方面定义）对提升评估性能的关键作用，甚至能让较小模型超越超大模型。
揭示了RLHF微调可能对模型的评估能力产生负面影响这一反直觉现象，对后续研究和模型应用具有重要启发。
明确了演示样本的“双刃剑”效应：合理的演示能显著提升性能，但样本选择和质量至关重要。
高度的实用价值：GPTScore框架简单易用，仅需自然语言指令和可能的少量示例，即可快速构建针对新任务、新维度的评估器，具有很强的工业应用前景。
开源与可复现性：研究完全公开了代码和详细的评估协议，保证了研究的透明度和可复现性，有助于推动领域内评估标准的进步。
七、 其他有价值内容
论文还详细对比了GPTScore与相近工作BARTScore的区别：BARTScore虽然也基于生成概率进行评分，但其重点在于通过微调（Fine-tuning）来提升特定任务的性能。而GPTScore的核心贡献在于完全摒弃了微调过程，转而依靠大模型的零样本指令学习和上下文学习能力来实现同等甚至更优的评估效果，并且支持随时通过修改指令来定制全新的评估方面，这是BARTScore无法做到的。这一区别凸显了GPTScore在灵活性和易用性上的显著优势。
总而言之，本研究不仅提出了一个强大的新工具GPTScore，更通过严谨而广泛的实验，为如何更好地利用大语言模型进行复杂认知任务（如评估）提供了宝贵的范例和深刻的见解。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问