分享自:

语言驱动的多任务机器人操作模型研究

期刊:6th conference on Robot Learning (CoRL 2022)

一种语言条件的多任务Transformer用于机器人操作及6自由度操控的研究报告

本文题为《Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation》,由Mohit Shridhar、Lucas Manuelli和Dieter Fox撰写,于6th Conference on Robot Learning (CoRL 2022) 上发表。该研究涉及计算机视觉、自然语言处理 (NLP) 与机器人操控领域,作者所属机构分别为University of Washington和NVIDIA。


研究背景与研究目的

近年来,Transformer架构在计算机视觉和自然语言处理中取得了突破性进展,其强大的可扩展性和灵活性为诸多领域带来了新思路。然而,在机器人操控领域,由于数据的获取成本高、数量有限,Transformer的应用尚未被充分探索。

传统的机器人操控方法依赖显式的物体表示(如实例分割、对象类别、姿态估计),或通过2D图像直接生成6自由度(6-DoF)的动作命令,但这些方法通常需要大量训练数据,且泛化能力有限。同时,行为克隆(Behavior Cloning,一种通过模仿专家演示训练的算法)在处理多任务时面临着效率和扩展性的问题。近期的研究如C2FARM提出了基于体素网格(voxel grid)构建三维观察空间以提高学习效率。然而,如何进一步充分利用Transformer对多模态输入建模的能力,探索高效的语言条件机器人学习方法仍是一个重要问题。

本研究旨在回答关键问题:“在任务和问题建模合理的情况下,Transformer是否可以有效地学习机器人操作任务?”研究具体目标包括: 1. 提出一种基于Transformer模型的多任务行为克隆框架,能够通过语言指令完成多种6自由度任务。 2. 使用最少的演示样本,实现高效的学习和泛化能力。 3. 通过实验验证该框架对模拟和真实机器人任务的性能。


研究方法与流程

本研究提出了Perceiver-Actor(简称PerAct)框架,该框架具有语言条件多任务学习的能力。其设计思想是通过体素数据感知周围环境,并基于输入语言目标生成下一步的动作建议。以下是研究的关键步骤:

1. 数据集准备

  • 采集专家演示:用于训练的演示数据集包括18个RLBench模拟任务(共计249种变体)和7个真实世界的机器人任务(共计18种变体)。
  • 数据格式:每次演示包括连续的动作和观测序列。动作由6自由度姿态、夹持器状态(张开或闭合)以及是否启用避障模式组成。观测由RGB-D图像构建而成,包含来自多视角的视觉数据。

2. 问题建模与表征

  • 关键帧提取:通过检测运动序列中的关键点,将行为学习简化为“预测下一个关键帧动作”的任务。这些关键帧通过手工设计的启发式规则提取。
  • 体素化:将RGB-D数据转化为100³分辨率的体素网格(voxel grid),用于构建三维观察空间及动作交互空间。这种方法提供了有效的结构化先验。
  • 动作离散化:机器人姿态的平移、旋转和夹持器状态被离散化为分类任务,动作类别范围包括体素网格中的所有体素位置,以及旋转分量的离散化角度(每5度为一个bin)。

3. Perceiverio Transformer框架

  • 输入数据编码:体素网格通过3D卷积编码为3D Patch(片段),并展平为长序列。语言目标通过预训练的CLIP编码器转化为紧凑特征向量。
  • 跨模态Transformer建模:输入序列与潜在向量(latent vectors)交互,使用Perceiver Transformer进行高效建模。该模型通过跨注意力层和自注意力层提取全局空间特征,并最终预测动作。
  • 动作解码:基于Transformer提取的特征,决策模块以最大化Q-值(动作价值函数)的方式输出最佳动作。

4. 实验设计与模型训练

  • 模拟环境设置:通过CoppeliaSim进行3D模拟,使用Franka Panda机器人执行任务;
  • 评价指标:以任务成功率为基准,测试单次演示所需步数上限为25。
  • 训练参数:模型共训练16天(600k迭代),使用NVIDIA V100 GPU,批量为16。
  • 数据增强:训练中引入位移和旋转扰动,以提高模型的泛化性能。

主要实验结果分析

1. 模拟任务性能

PerAct框架与两种基线模型进行了对比: - Image-BC:以2D图像为输入,直接预测动作的行为克隆框架。 - C2FARM-BC:基于体素网格的强化学习框架(但改用行为克隆训练)。

结果显示,PerAct的性能显著优于基线方法。在100次样本演示中,PerAct在18种任务上的平均成功率为72%,比C2FARM高出2.83倍,且对大量任务变体具备更强的适应能力。

2. 分析新颖性

  • PerAct通过体素建模实现了统一的观察和动作空间,便于感知与操作的融合;
  • Perceiver Transformer允许模型保持全球感受野,能够更有效地区分复杂任务的语义目标。

3. 真实场景验证

在现实机器人任务中,使用仅53次演示,总成功率超过50%。简单任务如按压洗手器,其成功率甚至高达90%。这表明该框架在小样本下仍具有实际可行性。


研究结论与意义

本研究开发了Perceiver-Actor,一个基于Transformer的多任务行为克隆框架,旨在以最少的数据完成多任务6自由度操作。实验结果表明: 1. PerAct能够利用体素化观察空间和语言条件模型,通过多任务学习提高机器人对具有复杂变化任务的适应能力。 2. 其高效的学习过程依赖于全球感受野和结构化先验的结合,尤其在语义变体任务中表现出明显优势。

研究亮点

  • 强调了Transformer在机器人领域的潜力,通过融合视觉与语言,实现使用少量演示高效学习;
  • 提供了一种通用的机器人多模态任务学习框架,适用于实时互动与泛化需求。

总体而言,PerAct框架不仅填补了Transformer在机器人操作中的探索空白,还有助于未来实现更复杂任务的高效学习,为机器人智能技术的发展带来了新的突破。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com