分享自:

增强机器人控制的层次化机器人变换器

期刊:8th Conference on Robot Learning (CoRL 2024)

清华大学交叉信息研究院的Jianke Zhang、Yanjiang Guo、Xiaoyu Chen等研究者联合加州大学伯克利分校的Yen-Jen Wang以及上海期智研究院的Jianyu Chen,在CoRL 2024会议上发表了题为《HIRT: Enhancing Robotic Control with Hierarchical Robot Transformers》的研究论文。该研究针对大规模视觉-语言-动作模型(Vision-Language-Action Models, VLA)在机器人控制中存在的计算成本高、推理延迟大等问题,提出了一种分层交互式模仿学习框架HIRT,显著提升了动态任务中的执行效率和性能。

学术背景

当前,基于预训练视觉-语言模型(Vision-Language Models, VLMs)的VLA模型在机器人控制中展现出强大的泛化能力,但其依赖数十亿参数规模的VLMs后端,导致计算负担沉重、推理速度低下(如控制频率仅4.1 Hz)。这限制了模型在动态任务(如快速移动物体操作)中的应用,并可能影响任务安全性和完成效率。受人类认知的双过程理论(Dual Process Theory)启发,研究者提出将VLA模型的“慢速语义分析”与“快速动作执行”解耦,通过分层架构实现性能与效率的平衡。

研究方法与流程

HIRT框架包含两个核心模块:
1. 理解模块:基于7B参数的InstructBLIP模型,负责将视觉观察和语言指令编码为富含常识知识的潜在特征,用于长期场景理解(如任务规划和纠错)。
2. 执行模块:轻量级视觉动作策略,以高频(如9.8 Hz)处理短期场景认知,结合历史观察和VLM提取的潜在特征生成底层动作。

关键技术细节

  • 多模态信息编码:InstructBLIP通过视觉Transformer(ViT)将图像转换为视觉标记,再与语言指令标记融合,经Q-Former和LLaMA模型生成语义嵌入。
  • 潜在特征条件化策略:执行模块采用三种条件化方式:(1)CNN架构中的FiLM层(Feature-wise Linear Modulation);(2)Transformer中的交叉注意力层;(3)动作头部的前缀调优(Prefix Tuning),将VLM潜在特征作为动作生成的上下文提示。
  • 异步训练与推理:训练时随机采样历史观察作为VLM输入以增强鲁棒性;推理时VLM低频更新潜在特征缓存,执行模块高频独立运行,避免延迟。

实验设计

研究在三个场景中验证HIRT:
1. 模拟环境:MetaWorld(20项桌面操作任务)和Franka-Kitchen(5项厨房任务),测试多任务学习和新场景泛化能力。
2. 真实世界:Franka Emika Panda机器人完成静态(如抓取、按钮按压)和动态(移动物体追踪)任务,数据包含2000条轨迹。
3. 基线对比:包括RT-1、RT-2(Vanilla-VLA)和扩散策略(Diffusion Policy),评估指标为任务成功率与推理速度。

主要结果

  1. 静态任务性能:在MetaWorld中,HIRT成功率(80.8%)显著高于RT-1(63.8%)和Vanilla-VLA(73.4%);在Franka-Kitchen新场景中,HIRT成功率(76%)比RT-1提高30%。
  2. 动态任务突破:真实世界动态抓取任务中,HIRT成功率(75%)远超Vanilla-VLA(48%),且任务完成时间缩短33%(6.18秒 vs 9.25秒)。
  3. 效率优化:HIRT控制频率达9.8 Hz,是Vanilla-VLA(4.1 Hz)的2.4倍,同时保持相近的泛化性能。

结论与价值

HIRT通过分层架构和异步执行机制,首次实现了VLA模型在动态任务中的高效部署。其科学价值在于:
1. 方法论创新:将双过程理论应用于机器人控制,为复杂任务的高效决策提供新范式。
2. 技术突破:轻量级策略模块(仅35M-150M参数)在保留VLM语义能力的同时,显著降低计算成本。
3. 应用前景:适用于工业分拣、家庭服务等需快速响应的机器人场景,推动VLA模型的实用化进程。

研究亮点

  • 关键发现:VLM潜在特征的高效条件化可使轻量策略模块性能逼近原始VLA模型。
  • 方法新颖性:首次提出异步分层训练策略,解决VLM与动作策略的时间对齐问题。
  • 实验全面性:覆盖模拟与真实环境,验证了从多任务学习到动态操作的广泛适用性。

其他价值

附录中详述了数据收集细节(如真实世界物体的多样性与干扰项设计)和消融实验(如随机采样对异步性能的影响),为后续研究提供了可复现的技术路径。该工作代码与数据集已开源,助力社区进一步探索分层机器人控制框架。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com