分享自:

一天学习千项任务:基于分解和检索的机器人模仿学习

期刊:7th robot learning workshop at iclr 2025

学术研究报告:机器人模仿学习新突破——单次演示即可掌握千种任务

作者及机构
本研究的共同第一作者为Kamil Dreczkowski与Pietro Vliello,合作者包括Vitalis Vosylius和Edward Johns,均来自伦敦帝国理工学院机器人学习实验室(Robot Learning Lab at Imperial College London)。该研究以工作坊论文形式发表于ICLR 2025第七届机器人学习研讨会(7th Robot Learning Workshop at ICLR 2025),题为《Learning a Thousand Tasks in a Day》。


学术背景与研究目标

科学领域与背景
研究聚焦于机器人模仿学习(Imitation Learning)领域,旨在解决当前机器人任务学习效率低下的核心问题。传统方法(如行为克隆,Behavioral Cloning, BC)需数百次演示才能掌握单一任务,而人类仅需少量观察即可模仿。这一差距源于现有方法多采用单阶段整体策略(monolithic policy),未区分任务中的不同推理阶段。

研究动机
团队发现,将任务分解为对齐(alignment)交互(interaction)两阶段,可显著提升数据效率。对齐阶段关注末端执行器与目标物体的相对位姿,交互阶段则需精确控制动作轨迹。基于此,团队提出多任务轨迹迁移(Multi-Task Trajectory Transfer, MT3)方法,通过检索(retrieval)机制复用演示数据,实现单次演示学习。

研究目标
1. 验证任务分解(对齐+交互)是否优于传统单阶段策略;
2. 比较检索方法与行为克隆在两阶段的性能差异;
3. 开发高效模仿学习框架MT3,并验证其千级任务扩展能力。


研究流程与方法

1. 系统架构设计
研究对比五种方法:
- 单阶段基线(MT-ACT+):传统行为克隆策略;
- 四类分解策略:组合BC与检索方法(如BC-BC、BC-Ret、Ret-BC、Ret-Ret/MT3)。

2. 数据收集与处理
- 演示数据:采集1000个任务(涉及402种物体、31种宏观技能),每个任务仅需1次演示,总耗时17小时;
- 数据表示:轨迹记录为RGB-D图像序列与末端执行器状态(6D位姿+夹爪状态),通过Grounding DINOXMem算法分割目标物体点云。

3. 检索方法开发
- 分层检索管道
- 语言检索:根据任务描述匹配微技能(micro-skill);
- 几何检索:通过PointNet++编码器计算物体点云相似性,选择最匹配的演示。
- 对齐策略:基于轨迹迁移(Trajectory Transfer)估计末端执行器目标位姿;
- 交互策略:直接复现演示中的动作序列。

4. 行为克隆策略优化
- 网络架构:采用MT-ACT+(改进自MT-ACT),结合PointNet++与CLIP语言嵌入;
- 训练增强:添加位姿扰动与点云掩蔽,提升泛化性。

5. 实验设计
- 对照实验
- 数据量实验:固定任务数(12个已知+8个未知任务),比较1~50次演示/任务的性能;
- 任务多样性实验:固定总演示数(150次),调整任务数(10→50个)。
- 大规模评估:在1000个任务(含100个未知任务)中测试MT3,共2200次实际 rollout。


主要结果

1. 分解策略显著提升效率
- 单次演示下,分解方法平均成功率(65%)超越单阶段策略(需10次演示);
- MT3(Ret-Ret)表现最佳,3次演示即可达其他方法50次演示的性能(图7a)。

2. 检索方法优势显著
- 对齐阶段:检索方法通过几何匹配,泛化性优于BC(成功率+15%);
- 交互阶段:直接复现演示轨迹的检索策略,对物体几何变化容忍度更高(图7c)。

3. 千级任务验证
- MT3在1000个任务中平均成功率达78.25%(已知任务)与65.66%(未知任务);
- 性能与任务精度需求相关:堆叠(stacking)等高容错任务成功率超90%,而插入(insertion)等精密操作较低。

4. 失败模式分析
- 主要失败源于检索错误(22.3%)(如物体部分遮挡)与位姿估计误差(23.9%)
- 运动规划问题仅占5.3%,验证了MT3动作执行的鲁棒性(图13)。


结论与价值

科学价值
1. 提出任务分解先验,揭示对齐与交互阶段的独立性是高效学习的关键;
2. 证明检索方法在少样本学习中的优越性,为数据高效模仿学习提供新范式。

应用价值
- 降低数据成本:单次演示即可学习,使机器人快速适应新任务;
- 规模化潜力:24小时内完成千级任务学习,远超现有技术(如RT-1需17个月)。


研究亮点

  1. 千级任务验证:首次实现单演示千任务学习,涉及402种物体,为领域最大规模评估;
  2. 创新方法MT3:结合检索与分解策略,数据效率较传统BC提升两个数量级;
  3. 开源数据集:发布2200次实际 rollout数据,涵盖复杂光照与遮挡场景。

局限与展望
- 当前检索依赖几何相似性,未来可融合语义信息;
- 多步骤任务需结合高层规划,进一步扩展MT3的链式操作能力。

(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com