分享自:

基于大语言模型的交互式规划方法在部分可观察机器人任务中的应用

期刊:workshop on instruction tuning and instruction following at neurips 2023

根据您提供的文档内容,以下是生成的学术报告:


学术报告

主要作者及单位
本文的主要作者包括Lingfeng Sun(University of California, Berkeley,电子邮件地址lingfengsun@berkeley.edu)、Devesh K. Jha(Mitsubishi Electric Research Laboratories,电子邮件地址jha@merl.com)、Chiori Hori(Mitsubishi Electric Research Laboratories,电子邮件地址chori@merl.com)、Siddarth Jain(Mitsubishi Electric Research Laboratories,电子邮件地址sjain@merl.com)、Radu Corcodel(Mitsubishi Electric Research Laboratories,电子邮件地址corcodel@merl.com)、Xinghao Zhu(University of California, Berkeley,电子邮件地址zhuxh@berkeley.edu)、Masayoshi Tomizuka(University of California, Berkeley,电子邮件地址tomizuka@berkeley.edu)和Diego Romeres(Mitsubishi Electric Research Laboratories,电子邮件地址romeres@merl.com)。

本文的研究成果在第37届“Workshop on Instruction Tuning and Instruction Following at NeurIPS 2023”会议上进行了展示。研究的主题为“Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks”。


背景与研究目的

研究背景基于机器人与人工智能(AI)领域的一个长期目标,即设计能够执行开放词汇任务(Open Vocabulary Tasks)的机器人。近年来,由于大语言模型(Large Language Models, LLMs)的飞速发展,其在复杂场景中的任务规划及推理能力得到了显著提升。然而,在面对部分可观测环境的任务规划时,机器人需要对动态变化的信息进行“链式推理”(Chain-of-Thought Reasoning),更新任务状态估计,并根据更新后的状态生成进一步的行动。这类任务通常难以通过传统方法有效解决。

本研究的核心是提出一种交互式规划技术(Interactive Planning Technique),以解决部分可观测任务中普遍存在的不确定性问题。研究目标包括:
1. 利用大语言模型引导机器人收集关键的环境信息;
2. 在部分可观测状态下推断任务状态,制定最佳行动规划;
3. 比较微调版本的LLM(例如LLaMA 2模型)与预训练版本(例如GPT-4)的性能差异。


研究流程与方法

本研究的工作流程可以分为以下几个主要步骤:

1. 任务评估与场景描述

论文设计了多种带有不确定性属性的机器人任务,例如“将最轻的杯子扔进垃圾桶”或“叠放轻的积木到重的积木上”。这些任务被抽象为部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)。在这种背景下,机器人需要处理环境信息的不完全性,通过传感器反馈制定动态决策。

2. 交互式规划框架设计

核心框架 LLM-PoP:研究提出了LLM-PoP(LLM for Partially Observable Task Planning)框架,其中大语言模型被用于两大功能: - 状态抽象(State Abstraction):通过分析环境描述以及传感器观测,推导任务的相关状态信息,并推断当前缺失的关键信息。 - 策略生成(Policy Generation):依据观察和状态估计,模型聚合信息以减小不确定性。此外,规划在尽量减少行动步骤的同时实现任务目标。若技能执行失败,LLM还会向机器人提供行动反馈。

3. 提示(Prompt)设计与多轮次优化

提示设计对于使用GPT-4等强大LLM至关重要。研究团队开发了细化的提示模板,包括以下几个部分: - 环境描述(Environment Description)、任务描述(Task Description)、可选行动(Action Options)、输出规则(Output Rules)、当前观察与历史信息等。 - 在一次规划任务中,各模块相互独立分工,如LLM Planner和LLM Evaluator分别执行规划和执行反馈的评分任务。提示的设计尽量减少逻辑紊乱,并要求响应结果格式化以便机器人直接执行。

4. 微调小型模型

为比较小型模型(如LLaMA 2)的表现,研究开发了一条基于自指引生成(Self-Instruct)的数据生成与微调管线。生成的数据包括: - 各种任务描述与输入输出示例; - 多轮次的“链式推理”问题及答案(CoT, Chain-of-Thought)。
将上述数据用于微调LLaMA 2-7B模型,并使用LLaMA Adapter进行优化。

5. 模拟及真实环境实验

实验在模拟的IsaacGym环境和真实机器人环境中进行验证,设计了多种任务场景,包括六种不同层次的任务:如“验证积木重量并叠放”以及“识别可动积木并放置”等。数据分析工具包括任务成功率评价、策略完整性检查等。


研究结果

模拟实验与仿真验证

在仿真环境(IsaacGym)中,LLM-PoP框架在多个任务上的性能表现优越。以下为主要结果: 1. 任务成功率: - GPT-4的成功率最高,大部分复杂任务均能达到80%-100%的完成率; - 相较之下,GPT-3.5即使包含Evaluators模块,其复杂任务的表现欠佳; - 未使用Evaluators模块的LLM-PoP任务成功率降低,表明Evaluators有助于改善长期推理过程中的逻辑准确性。

  1. 重要发现
    • 实验证明加入Evaluators模块能显著提升GPT-4的规划稳定性;
    • 微调的LLaMA模型虽然可成功解决低复杂度任务,但部分可观测任务推理能力仍有限。

真实机器人应用验证

基于真实机器人(如Mitsubishi Melfa Assista机械臂)的实验表明,LLM-PoP在真实环境中具备良好的鲁棒性: - 硬件稳定性:相比仿真环境,在真实场景中由于传感器信号更稳定、位置控制更精准,任务成功率反而更高。 - 试验表现:在五个随机初始条件下,六种实验任务的平均成功率均超过80%。


研究结论

本文提出了一个创新性的交互式规划框架(LLM-PoP),解决了部分可观测环境下的机器人任务规划问题。通过整合大语言模型的强大推理能力与传感反馈机制,研究达成以下目标: 1. 提供了一种综合状态抽象与策略规划的新方法; 2. 在不确定性较高的任务中广泛验证了框架的有效性。

研究的科学价值体现在以下两个方面: 1. 理论意义:进一步扩展了大语言模型与机器人结合的潜力,特别是在复杂决策与推理领域的应用。 2. 实践意义:为制定具有鲁棒性的机器人任务规划提供了新的范式,尤其适用于需要动态交互的现实场景。


研究亮点

  1. 链式推理与交互规划结合:首次展示了LLM在“状态抽象”和“信念更新”过程中双重角色的综合应用;
  2. 提示与微调机制创新:采用自指引生成任务数据的方式,提高了小型模型的实用性。
  3. 多模态融合与执行反馈:引入Evaluators模块以提升执行鲁棒性,尤其对复杂任务表现出色。

末尾展望

本文展示的交互式规划技术在机器人与AI领域具有广泛应用前景。未来研究方向可包括: 1. 优化针对小型模型的推理能力,提升其在复杂任务中的表现; 2. 扩展至多模态输入(如视觉表示),推动机器人在导航与社交场景中的应用; 3. 融合更智能的闭环行为策略(如避碰与在线调整),应对更具挑战性的决策任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com