分享自:

利用预训练大型语言模型构建和应用世界模型进行基于模型的任务规划

期刊:37th conference on neural information processing systems (NeurIPS 2023)

基于大规模预训练语言模型构建世界模型以进行基于模型的规划任务:一项研究报告

本文介绍了一项由来自亚利桑那州立大学(Arizona State University)计算机与人工智能学院(School of Computing & AI)的Lin Guan、Karthik Valmeekam、Subbarao Kambhampati以及科罗拉多州立大学(Colorado State University)计算机科学系(Department of Computer Science)的Sarath Sreedharan共同完成的研究。该研究已于2023年在第37届神经信息处理系统大会(37th Conference on Neural Information Processing Systems, NeurIPS 2023)上发表。

一、学术背景 本研究属于人工智能领域的子领域——自动规划。近年来,大规模预训练语言模型(Large Language Models, LLMs)在处理自然语言任务中表现卓越,引发了研究者探索其在新领域应用的兴趣,其中之一便是将其用于解决顺序决策或规划问题。然而,直接使用LLMs作为规划器存在显著缺陷:生成的计划(plan)正确性有限、严重依赖与模拟器甚至真实环境的交互反馈以修正错误、利用人类反馈的效率低下。这些问题源于LLMs在推理和规划能力上的固有不足,即使向其提供精确的行动描述,它们依然难以生成正确且可执行的计划。

基于此背景,研究者提出了一个新颖的范式转换:不再直接使用LLMs作为规划器,而是利用其庞大的世界知识,从自然语言描述中“提取”出一个显式的、符号化的世界模型(world model),具体形式为标准化的规划领域定义语言(Planning Domain Definition Language, PDDL)。随后,将这个PDDL模型与成熟的、可证明正确的领域无关规划器结合,来可靠地搜索解决方案。这一方法将规划过程分解为两个相对独立的部分:首先是利用LLMs的知识与语言理解能力对动作的因果依赖关系进行建模(即构建PDDL域模型),其次是利用外部规划器进行高效的组合搜索来找到动作序列。研究的目标是构建一个完整的流程,能够从动作的简短自然语言描述开始,自动化或半自动化地生成高质量的PDDL模型,并能通过自然语言反馈修正模型,最终利用该模型可靠地解决复杂的规划任务。

二、详细工作流程 研究主要包含三个核心流程:利用LLMs构建初始PDDL域模型、通过反馈机制修正模型中的错误、以及最终利用修正后的模型进行规划。研究对象是三个规划领域:一个比AlfWorld等常用基准更复杂的家庭机器人领域,以及两个来自经典规划竞赛(IPC)的领域(物流领域和轮胎世界领域)。研究使用的核心LLM是GPT-4(OpenAI),并同时对比了GPT-3.5-turbo的性能。

  1. PDDL模型构建流程

    • 输入:针对领域中的每一个动作,研究者构建一个结构化提示(prompt)。提示包含:PDDL生成任务的详细指令、来自经典积木世界(blocksworld)领域的一到两个示例以说明输入输出格式、待研究领域的上下文描述(包括机器人形态、物理约束等)、单个动作的自然语言描述、以及一个动态更新的谓词列表。
    • 处理与“实验”方法:研究者将提示输入给GPT-4,要求其输出该动作的PDDL表示。这个过程以迭代方式对领域内的所有动作逐一进行。关键的“实验”方法是设计了一套精密的提示工程流程,引导LLM完成符号化表示。特别地,研究者要求LLM在每次定义新谓词时,必须同时提供其自然语言描述。这为后续的非专家用户审查和交互奠定了基础。此外,为了确保谓词的一致性和重用,研究采用了“两次生成”策略:第一轮生成所有动作的初始模型和完整谓词列表;第二轮,将第一轮收集的所有谓词作为已知信息提供给LLM,让其重新生成所有动作的模型,这有助于LLM发现第一轮可能遗漏的跨动作依赖关系。
    • 数据分析(模型质量评估):为评估生成模型的质量,研究者招募了多位精通PDDL的研究生作为领域专家,对GPT-4和GPT-3.5-turbo生成的PDDL模型进行人工标注和错误修正。评估指标是错误注释的数量,包括移除无关前提条件、添加缺失前提条件、替换错误谓词、添加缺失参数等。这相当于衡量了生成模型与其“正确”版本之间的距离。
  2. PDDL模型修正流程

    • 输入:初始PDDL模型中存在的两类错误:语法错误(由PDDL验证工具如VAL检测)和事实性错误(如缺失效果,由人类专家审查发现)。
    • 处理与“实验”方法:研究提出使用LLM作为PDDL符号世界与自然语言反馈源之间的“中间层”或接口。对于语法错误,验证工具产生的简洁错误消息直接作为自然语言反馈提供给LLM。对于事实性错误,首先利用LLM将PDDL模型(包含谓词和参数的描述)翻译回自然语言,供人类专家检查;专家以自然语言形式指出错误(例如,“缺少一个效果:物品被捣碎后不再可拾取”)。然后,这些自然语言反馈被“回放”并附加到最初的PDDL构建对话中,要求LLM根据反馈修正模型。
    • 数据分析:研究者量化了GPT-4利用反馈的效率,即修正所有事实性错误所需的人类反馈消息数量。他们发现,GPT-4成功修正了所有错误,通常每条反馈能对应修正一个错误,偶尔需要额外反馈,显示出其强大的上下文理解和符号操作能力。同时,他们测试了GPT-3.5-turbo的修正能力,发现其不仅难以完成修正,甚至经常引入新错误,从而凸显了GPT-4在该任务上的优越性。
  3. 利用PDDL模型进行规划的应用流程

    • 目标设定:给定具体的用户指令(自然语言)和初始环境状态,需要生成可执行的行动序列。
    • 两种应用方法
      • 方法一:结合外部规划器。首先,再次利用GPT-4将用户指令翻译成用已获取的谓词表示的PDDL目标状态。然后,将翻译后的目标、初始状态以及LLM获取的PDDL域模型一并输入给一个强大的领域无关规划器Fast Downward进行规划。该方法利用了外部规划器的完备搜索能力。
      • 方法二:为LLM规划器提供验证反馈。将LLM(此处使用GPT-4)直接作为规划器生成计划,但不同之处在于,使用LLM获取的PDDL模型作为“廉价模拟器”或“人类代理”,通过VAL验证LLM生成的计划。当计划不满足前提条件或目标时,VAL会给出符号化验证结果,再由GPT-4将其翻译成自然语言,作为反馈提供给LLM规划器,让其重新规划。这类似于ReAct框架,但验证依据是符号化模型而非环境交互。
    • 实验与评估:研究者在家庭和物流领域采样了共48个具有挑战性的规划任务进行测试。他们比较了三种方式的成功率:纯LLM规划器、方法一(Fast Downward + LLM获取的PDDL模型)、方法二(LLM规划器 + 基于LLM-PDDL模型的验证反馈)。

三、主要结果 1. 模型构建结果:GPT-4能够生成高质量的PDDL模型。在家庭领域(22个动作,最终模型包含271个参数和文字)、物流领域(6个动作,54个参数/文字)和轮胎世界领域(13个动作,108个参数/文字),GPT-4产生的错误数量分别为53、2、4个。这些错误中仅少数为语法错误,大部分为事实性错误,表明GPT-4能很好地遵循PDDL语法,但对动作因果逻辑的理解仍有瑕疵。相比之下,GPT-3.5-turbo生成的模型错误百出(例如家庭领域超过218个错误),噪音极大,无法实用。此外,GPT-4能够构思出一套直观命名的谓词集,用以精确描述领域内的对象状态和事件。 2. 模型修正结果:GPT-4能够高效理解并整合来自验证工具和人类专家的自然语言反馈。在家庭领域,GPT-4仅用了59条反馈消息就成功修正了全部56个事实性错误,证明了其作为PDDL与用户间接口的可行性。 3. 规划应用结果:测试结果清晰地展示了不同方法的效能差异。 * 纯LLM规划器在家庭和物流领域的成功率极低(分别为15%和0%),验证了直接使用的不可靠性。 * 方法一(结合外部规划器)取得了压倒性的成功,在家庭和物流领域的成功率分别达到95%和100%。失败案例仅源于目标翻译错误,而非PDDL模型本身或规划器的问题。这证明了从LLM中提取符号模型并与可靠规划器结合这一范式的强大威力。 * 方法二(LLM规划器+验证反馈)虽然较纯LLM规划器有显著提升(家庭48%,物流33%),但成功率仍不理想。研究观察到,GPT-4规划器有时会陷入循环,重复生成相同错误计划,或在修正时引入新错误,表明其“规划能力”仍然是性能瓶颈。 4. 其他有趣发现:实验还揭示了LLM规划器的一些特性。例如,它能自然地遵循用户指令中隐含但无法用现有PDDL谓词表达的序约束;同时,相比于有时会生成物理可行但不符合人类习惯动作(如将刀放在烤面包机上)的经典规划器,LLM规划器生成的计划更符合人类常识和偏好。

四、结论与意义 本研究提出了一个利用LLMs进行规划的新范式:将LLMs视为世界知识的来源,用于构建显式的符号化世界模型(PDDL),而非直接充当规划器。这一范式转变有效规避了LLMs在组合搜索和可靠推理方面的短板,同时充分利用了其强大的知识编码和自然语言理解能力。研究展示了一个从生成、修正到应用PDDL模型的完整自动化或半自动化流程。

该研究的科学价值在于,它为解决LLMs在复杂推理任务中的应用难题提供了一个具有坚实理论保障(基于形式化模型和可证明正确的规划器)的实用框架。它弥合了数据驱动的LLM与符号化、可推理的AI传统之间的鸿沟。其应用价值显著,能够降低将自然语言指令转化为可靠机器人或智能体行动方案的门槛,减少对昂贵模拟器或专家持续人工干预的依赖,并因使用符号模型而具备更好的可解释性。

五、研究亮点 1. 范式创新:核心贡献在于将LLMs的角色从“规划器”重新定位为“世界模型构造器”,这是一个根本性的、富有洞察力的视角转变。 2. 方法完整性:不仅提出了构建模型的方法,还系统性地解决了模型修正(通过LLM作为自然语言接口)和模型应用(两种明确路径)的问题,形成了端到端的解决方案。 3. 实证充分性:在比常用基准更复杂的领域(家庭领域,包含多达41个动作、超过400个文字)上进行了全面评估,验证了GPT-4在生成高质量PDDL模型方面的能力,并严谨对比了不同规划方法的性能。 4. 实用导向:充分考虑了非PDDL专家的终端用户,设计了通过自然语言与系统交互(审查、反馈)的机制,极大地提升了方法的可用性和可接受度。 5. 揭示局限性:研究不仅展示了成功,也坦诚地指出了当前方法的边界,例如GPT-4在复杂空间推理方面的不足、以及LLM规划器即使有反馈仍存在性能瓶颈等问题,为未来研究指明了方向。

六、其他有价值内容 文章附录包含了丰富的细节,如完整的提示示例、所有生成的PDDL模型及人工标注、详细的模型修正对话记录、规划任务示例等,为复现研究和深入理解方法提供了宝贵资源。研究还讨论了工作的更广泛影响,包括提升安全性(通过符号模型保障正确性)和可解释性(符号模型便于调试和解释),并指出了未来扩展方向,如扩展到更复杂的逻辑表达、支持部分可观察性以及处理感知噪音等。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com