分享自:

基于十亿级合成动作数据的抓取基础模型

期刊:CoRL 2025

这篇文档属于类型a,是一篇关于机器人抓取基础模型(grasping foundation model)的原创性研究论文。以下是针对该研究的学术报告:


作者及机构

本研究由Shengliang Deng(Galbot、The University of Hong Kong)、Mi Yan(Galbot、Peking University)等共同完成,通讯作者为Zhizheng Zhang(Galbot、Beijing Academy of Artificial Intelligence)和He Wang(Galbot、Peking University)。论文尚未标注具体期刊信息,但项目页面已公开(https://pku-epic.github.io/graspvla-web)。


学术背景

研究领域:计算机视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作中的应用。
研究动机:现有VLA模型依赖真实世界数据,采集成本高且泛化能力有限。合成数据(synthetic data)虽成本低,但其潜力尚未充分挖掘。
科学问题:能否通过纯合成数据训练VLA模型,实现从仿真到现实(sim-to-real)的零样本泛化(zero-shot generalization)?
研究目标:开发基于十亿级合成动作数据的抓取基础模型GraspVLA,解决开放词汇(open-vocabulary)抓取任务中的泛化与适应性挑战。


研究流程

1. 数据集构建(Syngrasp-1b)

  • 规模与内容:生成包含10,680个物体(240类)的十亿帧抓取数据,覆盖几何、材质、光照等多样化场景。
  • 技术方法
    • 物体布局:基于Objaverse数据集筛选物体,通过物理仿真(Mujoco)随机生成场景。
    • 抓取轨迹合成:使用专家策略(Curobo运动规划算法)生成抗扰动抓取(antipodal grasps),并通过物理验证。
    • 视觉渲染:采用Isaac Sim的光线追踪(ray-tracing)技术,随机化光照、背景和相机视角。
  • 创新点:首次实现十亿级合成抓取数据,提供精确的3D姿态、相机标定和边界框标注。

2. 模型设计(GraspVLA)

  • 架构
    • 视觉语言模型(VLM):融合DINOv2和SigLip的视觉编码器,结合InternLM2语言模型。
    • 动作生成专家:基于条件流匹配(conditional flow matching)生成末端执行器动作。
  • 关键机制:渐进式动作生成(Progressive Action Generation, PAG),将目标检测(visual grounding)和抓取位姿预测作为动作生成的中间步骤,形成链式推理(chain-of-thought)。
  • 训练策略:联合训练合成动作数据与互联网语义数据(GRIT数据集),利用合成数据提供几何信息,互联网数据补充语义知识。

3. 实验验证

  • 零样本泛化测试
    • 真实世界:在Franka机械臂上测试,GraspVLA在合成类别和互联网类别上的平均成功率分别达93.3%和86.6%,显著优于基线模型(如π0、OpenVLA)。
    • 仿真环境(LIBERO):在未微调情况下,GraspVLA在长序列任务中的成功率(94.1%)超过已微调的基线模型。
  • 对比实验:与AnyGrasp(传统抓取检测算法)相比,GraspVLA在透明物体上的成功率提升至86.6%(AnyGrasp为10%)。
  • 小样本适应:仅需100条演示数据即可学习新任务(如避免接触杯内壁),成功率提升至90%。

主要结果

  1. 数据规模效应:模型性能随训练帧数增加而提升,互联网类别的泛化需更多数据支持(图5)。
  2. 设计选择验证:PAG机制将基础测试集的成功率从66.6%提升至93.3%(表5)。
  3. 跨平台适配:通过5,000条合成数据微调,模型可快速适配新机械臂(UR5e)和相机配置(腕部视角),成功率超76%。

结论与价值

科学价值
- 首次证明纯合成数据可训练高性能VLA模型,降低真实数据依赖。
- 提出PAG机制,弥合仿真与现实的语义鸿沟,实现开放词汇抓取。
应用价值
- 为机器人抓取提供低成本、高泛化的基础模型,支持工业场景快速部署。
- 模型权重与数据集公开,推动社区研究。


研究亮点

  1. 十亿级合成数据集:首个覆盖多维度随机化的抓取数据集Syngrasp-1b。
  2. 链式推理架构:PAG将感知与动作生成统一,提升语义泛化能力。
  3. 零样本性能:在真实与仿真环境中均超越现有模型,透明物体抓取表现突出。

其他价值

  • 局限性:当前仅支持桌面抓取任务,动态场景适应性待改进。
  • 未来方向:扩展至非抓取操作(如推、堆叠)及多模态任务。

(报告总字数:约1,500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com