VoxPoser：用于机器人操作的可组合3D价值地图与语言模型

分享自：
VoxPoser：用于机器人操作的可组合3D价值地图与语言模型

期刊:7th conference on robot learning (corl 2023)
类型a
主作者与研究机构：
 本研究的主要作者包括Wenlong Huang、Chen Wang、Ruohan Zhang、Yunzhu Li、Jiajun Wu和Li Fei-Fei，他们主要来自斯坦福大学（Stanford University），部分作者也隶属于伊利诺伊大学厄巴纳-香槟分校（University of Illinois Urbana-Champaign）。该研究发表于2023年的《机器人学习会议》（Conference on Robot Learning, CoRL 2023）。
学术背景：
 这项研究属于机器人学与人工智能的交叉领域，特别是关注大型语言模型（Large Language Models, LLMs）在机器人操作中的应用。近年来，LLMs因其强大的知识提取能力而备受关注，但如何将这些知识转化为机器人物理动作的能力仍然是一个挑战。现有的方法通常依赖预定义的动作原语（motion primitives）来执行任务，这限制了机器人的灵活性和适应性。本研究旨在通过结合LLMs和视觉-语言模型（Vision-Language Models, VLMs）来解决这一问题，提出了一种名为VoxPoser的新框架。该框架能够根据自由形式的语言指令生成密集的6自由度机器人轨迹，适用于各种日常操作任务。
研究工作流程：
 VoxPoser的工作流程可以分为以下几个主要步骤：
语言指令解析与价值图生成
 首先，LLMs接收自由形式的语言指令，并生成Python代码。这些代码通过调用感知API（例如基于CLIP或开放词汇检测器的工具）获取场景中相关物体的空间几何信息。接着，LLMs利用NumPy等工具操作三维数组，生成“价值图”（value maps）。这些价值图包括可操作性图（affordance maps）、约束图（constraint maps）、末端执行器速度图（end-effector velocity maps）、旋转图（rotation maps）和夹爪动作图（gripper action maps）。每个价值图都以三维体素表示，用于指导机器人在观察空间中的行为。
运动规划与轨迹合成
 在生成价值图后，这些图被用作运动规划的目标函数。研究使用基于模型预测控制（Model Predictive Control, MPC）的框架进行轨迹优化。MPC通过随机采样轨迹并根据价值图评分，找到最优路径。为了提高鲁棒性，系统能够在动态扰动下实时重新规划轨迹。
在线经验学习与动力学建模
 VoxPoser还支持通过在线交互高效学习环境动力学模型。对于涉及复杂接触的任务（如开门、开冰箱等），系统首先生成零样本轨迹作为探索先验，然后通过迭代收集数据和训练多层感知机（MLP）动力学模型，进一步优化动作参数。
研究对象与实验设计：
 研究在模拟环境和真实机器人环境中进行了大规模验证。模拟环境中使用了SAPIEN平台，包含Franka Emika Panda机械臂、10个彩色方块、10条彩色线以及一个带有三个抽屉的柜子。真实环境中则使用了Azure Kinect RGB-D相机捕捉场景信息。实验涵盖了多种日常任务，例如“打开抽屉”、“扫垃圾”、“设置餐桌”等。每项任务均测试了无干扰和有干扰两种条件下的表现。
主要结果：
 1. 语言指令解析与价值图生成
 研究表明，LLMs能够准确推断语言指令中的可操作性和约束条件，并通过编写代码生成高质量的价值图。例如，在“打开顶部抽屉并避开花瓶”的任务中，系统成功生成了吸引抽屉把手并避开花瓶的三维价值图。
轨迹合成与动态扰动下的鲁棒性
 在运动规划阶段，VoxPoser表现出色，能够生成平滑且高效的机器人轨迹。即使在动态扰动（如目标移动或障碍物变化）下，系统仍能通过快速重新规划保持任务完成率。例如，在“关闭抽屉”任务中，当抽屉被人为拉开时，机器人能够迅速调整动作并继续完成任务。
在线经验学习与动力学建模
 对于涉及复杂接触的任务，零样本轨迹提供了有效的探索先验，显著加速了动力学模型的学习过程。例如，在“开门”任务中，系统仅需不到3分钟的在线交互即可学会有效的动力学模型，最终成功率超过88%。
结论与意义：
 VoxPoser的研究展示了LLMs和VLMs在机器人操作中的巨大潜力。该框架不仅能够实现零样本泛化，还能通过在线经验学习进一步提升性能。其科学价值在于提供了一种通用的方法，将抽象语言指令转化为具体的机器人动作；其应用价值则体现在能够广泛应用于日常生活中的各种操作任务，如整理桌面、开关抽屉、清扫垃圾等。
研究亮点：
 1. 创新性框架设计
 VoxPoser首次提出了通过LLMs生成三维价值图的方法，将语言知识直接映射到机器人观察空间。
无需额外训练
 该框架无需对LLMs或VLMs进行额外训练，完全依赖预训练模型的知识和能力。
广泛的适用性
 系统能够处理开放集指令和开放集物体，适用于多种日常任务。
在线学习能力
 VoxPoser通过零样本轨迹作为先验，显著提高了复杂任务的动力学建模效率。
其他有价值内容：
 研究还探讨了VoxPoser的局限性，例如对外部感知模块的依赖、对高精度动力学模型的需求以及手动提示工程的必要性。未来研究方向包括引入多模态LLMs以实现直接视觉接地、开发更先进的轨迹优化方法等。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问