一种语言条件的多任务Transformer用于机器人操作及6自由度操控的研究报告
本文题为《Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation》,由Mohit Shridhar、Lucas Manuelli和Dieter Fox撰写,于6th Conference on Robot Learning (CoRL 2022) 上发表。该研究涉及计算机视觉、自然语言处理 (NLP) 与机器人操控领域,作者所属机构分别为University of Washington和NVIDIA。
近年来,Transformer架构在计算机视觉和自然语言处理中取得了突破性进展,其强大的可扩展性和灵活性为诸多领域带来了新思路。然而,在机器人操控领域,由于数据的获取成本高、数量有限,Transformer的应用尚未被充分探索。
传统的机器人操控方法依赖显式的物体表示(如实例分割、对象类别、姿态估计),或通过2D图像直接生成6自由度(6-DoF)的动作命令,但这些方法通常需要大量训练数据,且泛化能力有限。同时,行为克隆(Behavior Cloning,一种通过模仿专家演示训练的算法)在处理多任务时面临着效率和扩展性的问题。近期的研究如C2FARM提出了基于体素网格(voxel grid)构建三维观察空间以提高学习效率。然而,如何进一步充分利用Transformer对多模态输入建模的能力,探索高效的语言条件机器人学习方法仍是一个重要问题。
本研究旨在回答关键问题:“在任务和问题建模合理的情况下,Transformer是否可以有效地学习机器人操作任务?”研究具体目标包括: 1. 提出一种基于Transformer模型的多任务行为克隆框架,能够通过语言指令完成多种6自由度任务。 2. 使用最少的演示样本,实现高效的学习和泛化能力。 3. 通过实验验证该框架对模拟和真实机器人任务的性能。
本研究提出了Perceiver-Actor(简称PerAct)框架,该框架具有语言条件多任务学习的能力。其设计思想是通过体素数据感知周围环境,并基于输入语言目标生成下一步的动作建议。以下是研究的关键步骤:
PerAct框架与两种基线模型进行了对比: - Image-BC:以2D图像为输入,直接预测动作的行为克隆框架。 - C2FARM-BC:基于体素网格的强化学习框架(但改用行为克隆训练)。
结果显示,PerAct的性能显著优于基线方法。在100次样本演示中,PerAct在18种任务上的平均成功率为72%,比C2FARM高出2.83倍,且对大量任务变体具备更强的适应能力。
在现实机器人任务中,使用仅53次演示,总成功率超过50%。简单任务如按压洗手器,其成功率甚至高达90%。这表明该框架在小样本下仍具有实际可行性。
本研究开发了Perceiver-Actor,一个基于Transformer的多任务行为克隆框架,旨在以最少的数据完成多任务6自由度操作。实验结果表明: 1. PerAct能够利用体素化观察空间和语言条件模型,通过多任务学习提高机器人对具有复杂变化任务的适应能力。 2. 其高效的学习过程依赖于全球感受野和结构化先验的结合,尤其在语义变体任务中表现出明显优势。
总体而言,PerAct框架不仅填补了Transformer在机器人操作中的探索空白,还有助于未来实现更复杂任务的高效学习,为机器人智能技术的发展带来了新的突破。