大型语言模型评估综述:现状、挑战与未来方向
本文由来自吉林大学、微软亚洲研究院、西湖大学、中国科学院自动化研究所、卡内基梅隆大学、北京大学、香港科技大学等机构的学者合作完成,发表于ACM Transactions on Intelligent Systems and Technology期刊2024年3月刊。作为首篇系统性综述大型语言模型(Large Language Models, LLMs)评估方法的论文,文章从“评估内容”(What)、“评估工具”(Where)和“评估方法”(How)三个维度,全面梳理了当前LLMs评估的研究进展,并提出了未来挑战。
随着ChatGPT、GPT-4等LLMs在学术和工业界的广泛应用,其评估需求从单一任务性能扩展到社会影响和潜在风险层面。然而,现有评估方法分散且缺乏统一框架,难以全面衡量LLMs的能力边界。本文旨在填补这一空白,通过整合多领域评估任务(如自然语言处理、推理、伦理、医学应用等),构建系统化的评估体系,并为开发者提供优化方向。
文章将评估任务分为七大类:
- 自然语言处理(NLP)任务:包括文本分类、情感分析、语义理解等。例如,ChatGPT在情感分析中接近GPT-3.5水平(准确率85.8%),但在低资源语言理解中表现受限。
- 推理能力:数学推理(GPT-4在复杂数学问题中比ChatGPT准确率高10%)、常识推理(LLMs在因果推理中表现较好,但多跳推理能力弱)和领域特定推理(如医学推理)。
- 鲁棒性与伦理:对抗攻击(如PromptBench基准显示LLMs对对抗性提示敏感)、社会偏见(如GPT-4在文化价值观评测中存在系统性偏差)和事实性(如TruthfulQA数据集揭示模型可能生成虚假信息)。
- 科学与工程应用:数学(GPT-4在MIT数学考试中表现优异)、化学(任务准确率25%-100%不等)和代码生成(CodeGen-16B与ChatGPT性能相当)。
- 医学应用:医学查询(ChatGPT在USMLE考试中达到通过线)、诊断辅助(在放射学报告解读中展现潜力)和教育(提供个性化反馈)。
- 智能体应用:如ToolLLM框架通过工具扩展增强LLMs功能。
- 其他领域:教育(自动评分)、推荐系统(存在公平性风险)和人格测试(GPT-4情商得分超过89%人类)。
文章汇总了46个主流评测基准,分为三类:
- 通用任务基准:如HELM(全面评估语言理解、生成等能力)、MMLU(多任务准确率测试)和Chatbot Arena(通过用户投票排名模型)。
- 领域特定基准:如MATH(数学能力)、CUAD(法律合同审查)和SafetyBench(安全性评测)。
- 多模态基准:如MM-VET(视觉-语言综合能力)和SEED-Bench(多模态生成理解)。
本文的贡献在于:
1. 系统性分类:首次从三维度梳理LLMs评估体系,覆盖从技术到社会的多层次需求。
2. 开源社区建设:维护GitHub项目(llm-eval-survey),持续更新评测资源。
3. 方法论创新:提出动态评估、多模态评测等新方向,推动领域标准化。
本文为LLMs的研发与应用提供了重要参考,其提出的评估框架将助力构建更安全、可靠的人工智能系统。