本文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究的主要作者包括Chang Ma、Junlei Zhang、Zhihao Zhu、Cheng Yang、Yujiu Yang、Yaohui Jin、Zhenzhong Lan、Lingpeng Kong和Junxian He。他们分别来自香港大学(The University of Hong Kong)、浙江大学(Zhejiang University)、上海交通大学(Shanghai Jiao Tong University)、清华大学(Tsinghua University)、西湖大学(Westlake University)和香港科技大学(HKUST)。该研究发表于2024年的第38届神经信息处理系统会议(NeurIPS 2024)的数据集和基准(Datasets and Benchmarks)分论坛。
本研究的主要科学领域是大型语言模型(LLM)作为通用智能体的评估。随着大型语言模型在各类任务中展现出潜在的智能体能力,如何全面评估这些模型的性能成为了一个重要的研究问题。现有的评估框架大多关注最终的成功率,缺乏对模型在任务执行过程中表现的深入分析。为此,研究者提出了AgentBoard,一个专门用于多轮LLM智能体分析的基准和开源评估框架。AgentBoard旨在通过细粒度的进展率指标和多维度分析工具,揭示LLM智能体的能力与局限性,并推动其进一步发展。
AgentBoard的设计基于五个核心原则:任务多样性、多轮交互、部分可观测环境、细粒度指标和分析性评估。研究者通过统一的框架,评估LLM智能体在多种任务中的表现,涵盖具身AI、游戏、网页和工具操作等场景。每个任务都经过精心设计,确保其具有多轮交互和部分可观测的特性。
AgentBoard包含9个独特的任务和1013个示例环境。这些任务从现有的基准(如AlfWorld、ScienceWorld、BabyAI等)中选取或改编,并经过人工验证,以确保其符合多轮交互和部分可观测的要求。每个任务的数据样本都经过手动标注子目标,并引入了统一的进展率指标,用于跟踪智能体的详细进展。
AgentBoard提供了一个开源的评估工具包,支持多维度分析,包括细粒度进展率跟踪、硬任务与简单任务的性能分解、子技能表现分析、长程交互评估、接地准确性和轨迹分析等。该工具包通过交互式可视化面板,帮助用户深入了解智能体的表现。
研究者在实验中评估了多个专有和开源LLM模型,包括GPT-4、Claude 2、Gemini 1.5 Flash、LLaMA 3等。每个模型在AgentBoard的9个任务中进行了多轮交互测试,研究者记录了其进展率和成功率,并进行了详细的分析。
研究表明,进展率比成功率更能有效区分不同模型的性能。例如,尽管LLaMA 2-13B和Mistral-7B的成功率都较低,但Mistral-7B的进展率显著高于LLaMA 2-13B,表明其在任务执行中表现更好。此外,专有模型(如GPT-4)在所有任务中均表现出色,显著优于开源模型。
AgentBoard通过子技能评分系统,评估了LLM模型在记忆、规划、世界建模、自我反思、接地和空间导航等方面的能力。结果显示,GPT-4在所有子技能上均表现优异,而开源模型在某些子技能上存在明显不足。
在长程交互任务中,专有模型(如GPT-4和Claude 2)在30步交互中表现出持续进展,而开源模型(如LLaMA 3-70B和DeepSeek-67B)在约6步后进展停滞,表明其在复杂长程交互中的表现有限。
AgentBoard作为一个全面的LLM智能体评估基准,不仅提供了细粒度的进展率指标,还通过多维度的分析工具,帮助研究者深入理解LLM智能体的能力与局限性。该研究的开源工具包和详细评估框架,有望推动LLM智能体的进一步发展,并为未来的研究提供重要的参考。
研究者还通过人类验证,证明了进展率指标与人类评估结果高度相关,进一步验证了该指标的有效性。此外,AgentBoard的开源特性使其能够被广泛应用于未来的LLM智能体研究中,为社区提供了宝贵的资源。
通过这项研究,研究者不仅推动了LLM智能体评估领域的发展,还为未来LLM智能体的优化和应用提供了重要的理论支持。