增强机器人控制的层次化机器人变换器

分享自：
增强机器人控制的层次化机器人变换器

期刊:8th Conference on Robot Learning (CoRL 2024)
清华大学交叉信息研究院的Jianke Zhang、Yanjiang Guo、Xiaoyu Chen等研究者联合加州大学伯克利分校的Yen-Jen Wang以及上海期智研究院的Jianyu Chen，在CoRL 2024会议上发表了题为《HIRT: Enhancing Robotic Control with Hierarchical Robot Transformers》的研究论文。该研究针对大规模视觉-语言-动作模型（Vision-Language-Action Models, VLA）在机器人控制中存在的计算成本高、推理延迟大等问题，提出了一种分层交互式模仿学习框架HIRT，显著提升了动态任务中的执行效率和性能。
学术背景当前，基于预训练视觉-语言模型（Vision-Language Models, VLMs）的VLA模型在机器人控制中展现出强大的泛化能力，但其依赖数十亿参数规模的VLMs后端，导致计算负担沉重、推理速度低下（如控制频率仅4.1 Hz）。这限制了模型在动态任务（如快速移动物体操作）中的应用，并可能影响任务安全性和完成效率。受人类认知的双过程理论（Dual Process Theory）启发，研究者提出将VLA模型的“慢速语义分析”与“快速动作执行”解耦，通过分层架构实现性能与效率的平衡。
研究方法与流程HIRT框架包含两个核心模块：
 1. 理解模块：基于7B参数的InstructBLIP模型，负责将视觉观察和语言指令编码为富含常识知识的潜在特征，用于长期场景理解（如任务规划和纠错）。
 2. 执行模块：轻量级视觉动作策略，以高频（如9.8 Hz）处理短期场景认知，结合历史观察和VLM提取的潜在特征生成底层动作。
关键技术细节多模态信息编码：InstructBLIP通过视觉Transformer（ViT）将图像转换为视觉标记，再与语言指令标记融合，经Q-Former和LLaMA模型生成语义嵌入。
 
潜在特征条件化策略：执行模块采用三种条件化方式：（1）CNN架构中的FiLM层（Feature-wise Linear Modulation）；（2）Transformer中的交叉注意力层；（3）动作头部的前缀调优（Prefix Tuning），将VLM潜在特征作为动作生成的上下文提示。
 
异步训练与推理：训练时随机采样历史观察作为VLM输入以增强鲁棒性；推理时VLM低频更新潜在特征缓存，执行模块高频独立运行，避免延迟。
 
实验设计研究在三个场景中验证HIRT：
 1. 模拟环境：MetaWorld（20项桌面操作任务）和Franka-Kitchen（5项厨房任务），测试多任务学习和新场景泛化能力。
 2. 真实世界：Franka Emika Panda机器人完成静态（如抓取、按钮按压）和动态（移动物体追踪）任务，数据包含2000条轨迹。
 3. 基线对比：包括RT-1、RT-2（Vanilla-VLA）和扩散策略（Diffusion Policy），评估指标为任务成功率与推理速度。
主要结果静态任务性能：在MetaWorld中，HIRT成功率（80.8%）显著高于RT-1（63.8%）和Vanilla-VLA（73.4%）；在Franka-Kitchen新场景中，HIRT成功率（76%）比RT-1提高30%。
 
动态任务突破：真实世界动态抓取任务中，HIRT成功率（75%）远超Vanilla-VLA（48%），且任务完成时间缩短33%（6.18秒 vs 9.25秒）。
 
效率优化：HIRT控制频率达9.8 Hz，是Vanilla-VLA（4.1 Hz）的2.4倍，同时保持相近的泛化性能。
 
结论与价值HIRT通过分层架构和异步执行机制，首次实现了VLA模型在动态任务中的高效部署。其科学价值在于：
 1. 方法论创新：将双过程理论应用于机器人控制，为复杂任务的高效决策提供新范式。
 2. 技术突破：轻量级策略模块（仅35M-150M参数）在保留VLM语义能力的同时，显著降低计算成本。
 3. 应用前景：适用于工业分拣、家庭服务等需快速响应的机器人场景，推动VLA模型的实用化进程。
研究亮点关键发现：VLM潜在特征的高效条件化可使轻量策略模块性能逼近原始VLA模型。
 
方法新颖性：首次提出异步分层训练策略，解决VLM与动作策略的时间对齐问题。
 
实验全面性：覆盖模拟与真实环境，验证了从多任务学习到动态操作的广泛适用性。
 
其他价值附录中详述了数据收集细节（如真实世界物体的多样性与干扰项设计）和消融实验（如随机采样对异步性能的影响），为后续研究提供了可复现的技术路径。该工作代码与数据集已开源，助力社区进一步探索分层机器人控制框架。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问