罗文和王厚峰(北京大学计算机学院)于2024年1月在《中文信息学报》上发表了题为《大语言模型评测综述》的论文。该论文系统性地总结和分析了当前大语言模型(Large Language Models, LLMs)评测的研究进展、现状和挑战,旨在为研究者提供全面的评测视角和未来的研究方向。
论文首先介绍了大语言模型在自然语言处理(Natural Language Processing, NLP)任务中的卓越表现,并指出随着模型应用的广泛化,如何准确、全面地评估大语言模型成为了一个亟待解决的问题。现有的评测基准和方法存在诸多不足,如评测任务不合理、评测结果不可解释等。此外,随着模型鲁棒性、公平性等能力的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。
接着,论文详细回顾了自然语言处理领域的经典评测范式,包括自然语言理解(NLU)和自然语言生成(NLG)任务中的常见评测基准和指标。例如,GLUE、SuperGLUE、XGLUE、CLUE等评测基准广泛应用于NLU任务,而BLEU、ROUGE等指标则常用于NLG任务。这些经典评测范式主要通过模型输出与参考答案的匹配程度来评估模型性能,但随着大语言模型的规模不断扩大,传统的单一任务单一指标评测方法已无法满足新的需求。
随后,论文深入探讨了面向多种能力的新型评测范式。这些新型评测不仅关注模型的理解和生成能力,还强调模型的逻辑推理、数学能力、代码理解、伦理道德等多方面属性。例如,Big-Bench、MT-Bench、C-Eval等评测基准在大语言模型的多种能力评估中发挥了重要作用。论文还特别介绍了GPT-4在这些新型评测基准上的表现,展示了其在多个任务上与人类相当甚至超越人类的性能。
论文进一步分析了现有评测的不足,主要包括新生任务缺乏相应评测基准、评测任务缺乏区分度、评估方式不公平、评估不全面、评测基准的污染问题以及评估结果缺乏可解释性。这些问题导致研究者难以准确评估和比较不同模型的性能,也制约了大语言模型在新生任务中的应用研究。
在全面的大语言模型评测部分,论文介绍了Liang等人提出的HELM(Holistic Evaluation of Language Models)方法。HELM通过在多个场景、任务和评估指标下评测大语言模型的能力,为大语言模型的全面评估提供了新的思路。论文详细阐述了HELM中的主要评测属性,包括准确率、校准度(calibration)、泛化能力、适配能力、鲁棒性、效率、偏见和刻板印象、公平性以及有害性。这些评测属性从不同维度反映了大语言模型的性能,有助于研究者更全面地理解和评估模型。
最后,论文探讨了大语言模型评测的一些新方向,包括基于模型的评测、幻觉问题的评测和元评测(对评测指标本身进行评估)。这些方向进一步弥补了传统评测的不足,为评价模型性能提供了更加精准、稳定和可靠的评估结果。例如,基于模型的评测方法通过引入其他模型来评估大语言模型的生成文本质量,减少了对参考文本的依赖。幻觉问题(hallucination)的评测则关注模型生成内容与事实不符的情况,通过设计专门的评测基准来量化模型的幻觉程度。元评测通过对评测指标本身进行评估,帮助研究者选择更适合的评测方法,提升评测结果的可靠性和可解释性。
这篇论文系统性地总结了大语言模型评测的研究进展,提出了一些新的评测方向和方法,并为未来的研究提供了重要参考。通过详细介绍经典评测范式、新型评测范式以及现有评测的不足,该论文为大语言模型的全面评估提供了理论依据和实践指导,具有重要的学术价值和实际应用意义。