这篇文档属于类型a,是一篇关于机器人抓取基础模型(grasping foundation model)的原创性研究论文。以下是针对该研究的学术报告:
作者及机构
本研究由Shengliang Deng(Galbot、The University of Hong Kong)、Mi Yan(Galbot、Peking University)等共同完成,通讯作者为Zhizheng Zhang(Galbot、Beijing Academy of Artificial Intelligence)和He Wang(Galbot、Peking University)。论文尚未标注具体期刊信息,但项目页面已公开(https://pku-epic.github.io/graspvla-web)。
学术背景
研究领域:计算机视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作中的应用。
研究动机:现有VLA模型依赖真实世界数据,采集成本高且泛化能力有限。合成数据(synthetic data)虽成本低,但其潜力尚未充分挖掘。
科学问题:能否通过纯合成数据训练VLA模型,实现从仿真到现实(sim-to-real)的零样本泛化(zero-shot generalization)?
研究目标:开发基于十亿级合成动作数据的抓取基础模型GraspVLA,解决开放词汇(open-vocabulary)抓取任务中的泛化与适应性挑战。
研究流程
1. 数据集构建(Syngrasp-1b)
- 规模与内容:生成包含10,680个物体(240类)的十亿帧抓取数据,覆盖几何、材质、光照等多样化场景。
- 技术方法:
- 物体布局:基于Objaverse数据集筛选物体,通过物理仿真(Mujoco)随机生成场景。
- 抓取轨迹合成:使用专家策略(Curobo运动规划算法)生成抗扰动抓取(antipodal grasps),并通过物理验证。
- 视觉渲染:采用Isaac Sim的光线追踪(ray-tracing)技术,随机化光照、背景和相机视角。
- 创新点:首次实现十亿级合成抓取数据,提供精确的3D姿态、相机标定和边界框标注。
2. 模型设计(GraspVLA)
- 架构:
- 视觉语言模型(VLM):融合DINOv2和SigLip的视觉编码器,结合InternLM2语言模型。
- 动作生成专家:基于条件流匹配(conditional flow matching)生成末端执行器动作。
- 关键机制:渐进式动作生成(Progressive Action Generation, PAG),将目标检测(visual grounding)和抓取位姿预测作为动作生成的中间步骤,形成链式推理(chain-of-thought)。
- 训练策略:联合训练合成动作数据与互联网语义数据(GRIT数据集),利用合成数据提供几何信息,互联网数据补充语义知识。
3. 实验验证
- 零样本泛化测试:
- 真实世界:在Franka机械臂上测试,GraspVLA在合成类别和互联网类别上的平均成功率分别达93.3%和86.6%,显著优于基线模型(如π0、OpenVLA)。
- 仿真环境(LIBERO):在未微调情况下,GraspVLA在长序列任务中的成功率(94.1%)超过已微调的基线模型。
- 对比实验:与AnyGrasp(传统抓取检测算法)相比,GraspVLA在透明物体上的成功率提升至86.6%(AnyGrasp为10%)。
- 小样本适应:仅需100条演示数据即可学习新任务(如避免接触杯内壁),成功率提升至90%。
主要结果
- 数据规模效应:模型性能随训练帧数增加而提升,互联网类别的泛化需更多数据支持(图5)。
- 设计选择验证:PAG机制将基础测试集的成功率从66.6%提升至93.3%(表5)。
- 跨平台适配:通过5,000条合成数据微调,模型可快速适配新机械臂(UR5e)和相机配置(腕部视角),成功率超76%。
结论与价值
科学价值:
- 首次证明纯合成数据可训练高性能VLA模型,降低真实数据依赖。
- 提出PAG机制,弥合仿真与现实的语义鸿沟,实现开放词汇抓取。
应用价值:
- 为机器人抓取提供低成本、高泛化的基础模型,支持工业场景快速部署。
- 模型权重与数据集公开,推动社区研究。
研究亮点
- 十亿级合成数据集:首个覆盖多维度随机化的抓取数据集Syngrasp-1b。
- 链式推理架构:PAG将感知与动作生成统一,提升语义泛化能力。
- 零样本性能:在真实与仿真环境中均超越现有模型,透明物体抓取表现突出。
其他价值
- 局限性:当前仅支持桌面抓取任务,动态场景适应性待改进。
- 未来方向:扩展至非抓取操作(如推、堆叠)及多模态任务。
(报告总字数:约1,500字)