清华大学交叉信息研究院的Jianke Zhang、Yanjiang Guo、Xiaoyu Chen等研究者联合加州大学伯克利分校的Yen-Jen Wang以及上海期智研究院的Jianyu Chen,在CoRL 2024会议上发表了题为《HIRT: Enhancing Robotic Control with Hierarchical Robot Transformers》的研究论文。该研究针对大规模视觉-语言-动作模型(Vision-Language-Action Models, VLA)在机器人控制中存在的计算成本高、推理延迟大等问题,提出了一种分层交互式模仿学习框架HIRT,显著提升了动态任务中的执行效率和性能。
当前,基于预训练视觉-语言模型(Vision-Language Models, VLMs)的VLA模型在机器人控制中展现出强大的泛化能力,但其依赖数十亿参数规模的VLMs后端,导致计算负担沉重、推理速度低下(如控制频率仅4.1 Hz)。这限制了模型在动态任务(如快速移动物体操作)中的应用,并可能影响任务安全性和完成效率。受人类认知的双过程理论(Dual Process Theory)启发,研究者提出将VLA模型的“慢速语义分析”与“快速动作执行”解耦,通过分层架构实现性能与效率的平衡。
HIRT框架包含两个核心模块:
1. 理解模块:基于7B参数的InstructBLIP模型,负责将视觉观察和语言指令编码为富含常识知识的潜在特征,用于长期场景理解(如任务规划和纠错)。
2. 执行模块:轻量级视觉动作策略,以高频(如9.8 Hz)处理短期场景认知,结合历史观察和VLM提取的潜在特征生成底层动作。
研究在三个场景中验证HIRT:
1. 模拟环境:MetaWorld(20项桌面操作任务)和Franka-Kitchen(5项厨房任务),测试多任务学习和新场景泛化能力。
2. 真实世界:Franka Emika Panda机器人完成静态(如抓取、按钮按压)和动态(移动物体追踪)任务,数据包含2000条轨迹。
3. 基线对比:包括RT-1、RT-2(Vanilla-VLA)和扩散策略(Diffusion Policy),评估指标为任务成功率与推理速度。
HIRT通过分层架构和异步执行机制,首次实现了VLA模型在动态任务中的高效部署。其科学价值在于:
1. 方法论创新:将双过程理论应用于机器人控制,为复杂任务的高效决策提供新范式。
2. 技术突破:轻量级策略模块(仅35M-150M参数)在保留VLM语义能力的同时,显著降低计算成本。
3. 应用前景:适用于工业分拣、家庭服务等需快速响应的机器人场景,推动VLA模型的实用化进程。
附录中详述了数据收集细节(如真实世界物体的多样性与干扰项设计)和消融实验(如随机采样对异步性能的影响),为后续研究提供了可复现的技术路径。该工作代码与数据集已开源,助力社区进一步探索分层机器人控制框架。