分享自:

VoxPoser:用于机器人操作的可组合3D价值地图与语言模型

期刊:7th conference on robot learning (corl 2023)

类型a

主作者与研究机构:
本研究的主要作者包括Wenlong Huang、Chen Wang、Ruohan Zhang、Yunzhu Li、Jiajun Wu和Li Fei-Fei,他们主要来自斯坦福大学(Stanford University),部分作者也隶属于伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign)。该研究发表于2023年的《机器人学习会议》(Conference on Robot Learning, CoRL 2023)。

学术背景:
这项研究属于机器人学与人工智能的交叉领域,特别是关注大型语言模型(Large Language Models, LLMs)在机器人操作中的应用。近年来,LLMs因其强大的知识提取能力而备受关注,但如何将这些知识转化为机器人物理动作的能力仍然是一个挑战。现有的方法通常依赖预定义的动作原语(motion primitives)来执行任务,这限制了机器人的灵活性和适应性。本研究旨在通过结合LLMs和视觉-语言模型(Vision-Language Models, VLMs)来解决这一问题,提出了一种名为VoxPoser的新框架。该框架能够根据自由形式的语言指令生成密集的6自由度机器人轨迹,适用于各种日常操作任务。

研究工作流程:
VoxPoser的工作流程可以分为以下几个主要步骤:

  1. 语言指令解析与价值图生成
    首先,LLMs接收自由形式的语言指令,并生成Python代码。这些代码通过调用感知API(例如基于CLIP或开放词汇检测器的工具)获取场景中相关物体的空间几何信息。接着,LLMs利用NumPy等工具操作三维数组,生成“价值图”(value maps)。这些价值图包括可操作性图(affordance maps)、约束图(constraint maps)、末端执行器速度图(end-effector velocity maps)、旋转图(rotation maps)和夹爪动作图(gripper action maps)。每个价值图都以三维体素表示,用于指导机器人在观察空间中的行为。

  2. 运动规划与轨迹合成
    在生成价值图后,这些图被用作运动规划的目标函数。研究使用基于模型预测控制(Model Predictive Control, MPC)的框架进行轨迹优化。MPC通过随机采样轨迹并根据价值图评分,找到最优路径。为了提高鲁棒性,系统能够在动态扰动下实时重新规划轨迹。

  3. 在线经验学习与动力学建模
    VoxPoser还支持通过在线交互高效学习环境动力学模型。对于涉及复杂接触的任务(如开门、开冰箱等),系统首先生成零样本轨迹作为探索先验,然后通过迭代收集数据和训练多层感知机(MLP)动力学模型,进一步优化动作参数。

研究对象与实验设计:
研究在模拟环境和真实机器人环境中进行了大规模验证。模拟环境中使用了SAPIEN平台,包含Franka Emika Panda机械臂、10个彩色方块、10条彩色线以及一个带有三个抽屉的柜子。真实环境中则使用了Azure Kinect RGB-D相机捕捉场景信息。实验涵盖了多种日常任务,例如“打开抽屉”、“扫垃圾”、“设置餐桌”等。每项任务均测试了无干扰和有干扰两种条件下的表现。

主要结果:
1. 语言指令解析与价值图生成
研究表明,LLMs能够准确推断语言指令中的可操作性和约束条件,并通过编写代码生成高质量的价值图。例如,在“打开顶部抽屉并避开花瓶”的任务中,系统成功生成了吸引抽屉把手并避开花瓶的三维价值图。

  1. 轨迹合成与动态扰动下的鲁棒性
    在运动规划阶段,VoxPoser表现出色,能够生成平滑且高效的机器人轨迹。即使在动态扰动(如目标移动或障碍物变化)下,系统仍能通过快速重新规划保持任务完成率。例如,在“关闭抽屉”任务中,当抽屉被人为拉开时,机器人能够迅速调整动作并继续完成任务。

  2. 在线经验学习与动力学建模
    对于涉及复杂接触的任务,零样本轨迹提供了有效的探索先验,显著加速了动力学模型的学习过程。例如,在“开门”任务中,系统仅需不到3分钟的在线交互即可学会有效的动力学模型,最终成功率超过88%。

结论与意义:
VoxPoser的研究展示了LLMs和VLMs在机器人操作中的巨大潜力。该框架不仅能够实现零样本泛化,还能通过在线经验学习进一步提升性能。其科学价值在于提供了一种通用的方法,将抽象语言指令转化为具体的机器人动作;其应用价值则体现在能够广泛应用于日常生活中的各种操作任务,如整理桌面、开关抽屉、清扫垃圾等。

研究亮点:
1. 创新性框架设计
VoxPoser首次提出了通过LLMs生成三维价值图的方法,将语言知识直接映射到机器人观察空间。

  1. 无需额外训练
    该框架无需对LLMs或VLMs进行额外训练,完全依赖预训练模型的知识和能力。

  2. 广泛的适用性
    系统能够处理开放集指令和开放集物体,适用于多种日常任务。

  3. 在线学习能力
    VoxPoser通过零样本轨迹作为先验,显著提高了复杂任务的动力学建模效率。

其他有价值内容:
研究还探讨了VoxPoser的局限性,例如对外部感知模块的依赖、对高精度动力学模型的需求以及手动提示工程的必要性。未来研究方向包括引入多模态LLMs以实现直接视觉接地、开发更先进的轨迹优化方法等。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com