基于大规模预训练语言模型构建世界模型以进行基于模型的规划任务:一项研究报告
本文介绍了一项由来自亚利桑那州立大学(Arizona State University)计算机与人工智能学院(School of Computing & AI)的Lin Guan、Karthik Valmeekam、Subbarao Kambhampati以及科罗拉多州立大学(Colorado State University)计算机科学系(Department of Computer Science)的Sarath Sreedharan共同完成的研究。该研究已于2023年在第37届神经信息处理系统大会(37th Conference on Neural Information Processing Systems, NeurIPS 2023)上发表。
一、学术背景 本研究属于人工智能领域的子领域——自动规划。近年来,大规模预训练语言模型(Large Language Models, LLMs)在处理自然语言任务中表现卓越,引发了研究者探索其在新领域应用的兴趣,其中之一便是将其用于解决顺序决策或规划问题。然而,直接使用LLMs作为规划器存在显著缺陷:生成的计划(plan)正确性有限、严重依赖与模拟器甚至真实环境的交互反馈以修正错误、利用人类反馈的效率低下。这些问题源于LLMs在推理和规划能力上的固有不足,即使向其提供精确的行动描述,它们依然难以生成正确且可执行的计划。
基于此背景,研究者提出了一个新颖的范式转换:不再直接使用LLMs作为规划器,而是利用其庞大的世界知识,从自然语言描述中“提取”出一个显式的、符号化的世界模型(world model),具体形式为标准化的规划领域定义语言(Planning Domain Definition Language, PDDL)。随后,将这个PDDL模型与成熟的、可证明正确的领域无关规划器结合,来可靠地搜索解决方案。这一方法将规划过程分解为两个相对独立的部分:首先是利用LLMs的知识与语言理解能力对动作的因果依赖关系进行建模(即构建PDDL域模型),其次是利用外部规划器进行高效的组合搜索来找到动作序列。研究的目标是构建一个完整的流程,能够从动作的简短自然语言描述开始,自动化或半自动化地生成高质量的PDDL模型,并能通过自然语言反馈修正模型,最终利用该模型可靠地解决复杂的规划任务。
二、详细工作流程 研究主要包含三个核心流程:利用LLMs构建初始PDDL域模型、通过反馈机制修正模型中的错误、以及最终利用修正后的模型进行规划。研究对象是三个规划领域:一个比AlfWorld等常用基准更复杂的家庭机器人领域,以及两个来自经典规划竞赛(IPC)的领域(物流领域和轮胎世界领域)。研究使用的核心LLM是GPT-4(OpenAI),并同时对比了GPT-3.5-turbo的性能。
PDDL模型构建流程:
PDDL模型修正流程:
利用PDDL模型进行规划的应用流程:
三、主要结果 1. 模型构建结果:GPT-4能够生成高质量的PDDL模型。在家庭领域(22个动作,最终模型包含271个参数和文字)、物流领域(6个动作,54个参数/文字)和轮胎世界领域(13个动作,108个参数/文字),GPT-4产生的错误数量分别为53、2、4个。这些错误中仅少数为语法错误,大部分为事实性错误,表明GPT-4能很好地遵循PDDL语法,但对动作因果逻辑的理解仍有瑕疵。相比之下,GPT-3.5-turbo生成的模型错误百出(例如家庭领域超过218个错误),噪音极大,无法实用。此外,GPT-4能够构思出一套直观命名的谓词集,用以精确描述领域内的对象状态和事件。 2. 模型修正结果:GPT-4能够高效理解并整合来自验证工具和人类专家的自然语言反馈。在家庭领域,GPT-4仅用了59条反馈消息就成功修正了全部56个事实性错误,证明了其作为PDDL与用户间接口的可行性。 3. 规划应用结果:测试结果清晰地展示了不同方法的效能差异。 * 纯LLM规划器在家庭和物流领域的成功率极低(分别为15%和0%),验证了直接使用的不可靠性。 * 方法一(结合外部规划器)取得了压倒性的成功,在家庭和物流领域的成功率分别达到95%和100%。失败案例仅源于目标翻译错误,而非PDDL模型本身或规划器的问题。这证明了从LLM中提取符号模型并与可靠规划器结合这一范式的强大威力。 * 方法二(LLM规划器+验证反馈)虽然较纯LLM规划器有显著提升(家庭48%,物流33%),但成功率仍不理想。研究观察到,GPT-4规划器有时会陷入循环,重复生成相同错误计划,或在修正时引入新错误,表明其“规划能力”仍然是性能瓶颈。 4. 其他有趣发现:实验还揭示了LLM规划器的一些特性。例如,它能自然地遵循用户指令中隐含但无法用现有PDDL谓词表达的序约束;同时,相比于有时会生成物理可行但不符合人类习惯动作(如将刀放在烤面包机上)的经典规划器,LLM规划器生成的计划更符合人类常识和偏好。
四、结论与意义 本研究提出了一个利用LLMs进行规划的新范式:将LLMs视为世界知识的来源,用于构建显式的符号化世界模型(PDDL),而非直接充当规划器。这一范式转变有效规避了LLMs在组合搜索和可靠推理方面的短板,同时充分利用了其强大的知识编码和自然语言理解能力。研究展示了一个从生成、修正到应用PDDL模型的完整自动化或半自动化流程。
该研究的科学价值在于,它为解决LLMs在复杂推理任务中的应用难题提供了一个具有坚实理论保障(基于形式化模型和可证明正确的规划器)的实用框架。它弥合了数据驱动的LLM与符号化、可推理的AI传统之间的鸿沟。其应用价值显著,能够降低将自然语言指令转化为可靠机器人或智能体行动方案的门槛,减少对昂贵模拟器或专家持续人工干预的依赖,并因使用符号模型而具备更好的可解释性。
五、研究亮点 1. 范式创新:核心贡献在于将LLMs的角色从“规划器”重新定位为“世界模型构造器”,这是一个根本性的、富有洞察力的视角转变。 2. 方法完整性:不仅提出了构建模型的方法,还系统性地解决了模型修正(通过LLM作为自然语言接口)和模型应用(两种明确路径)的问题,形成了端到端的解决方案。 3. 实证充分性:在比常用基准更复杂的领域(家庭领域,包含多达41个动作、超过400个文字)上进行了全面评估,验证了GPT-4在生成高质量PDDL模型方面的能力,并严谨对比了不同规划方法的性能。 4. 实用导向:充分考虑了非PDDL专家的终端用户,设计了通过自然语言与系统交互(审查、反馈)的机制,极大地提升了方法的可用性和可接受度。 5. 揭示局限性:研究不仅展示了成功,也坦诚地指出了当前方法的边界,例如GPT-4在复杂空间推理方面的不足、以及LLM规划器即使有反馈仍存在性能瓶颈等问题,为未来研究指明了方向。
六、其他有价值内容 文章附录包含了丰富的细节,如完整的提示示例、所有生成的PDDL模型及人工标注、详细的模型修正对话记录、规划任务示例等,为复现研究和深入理解方法提供了宝贵资源。研究还讨论了工作的更广泛影响,包括提升安全性(通过符号模型保障正确性)和可解释性(符号模型便于调试和解释),并指出了未来扩展方向,如扩展到更复杂的逻辑表达、支持部分可观察性以及处理感知噪音等。