基于十亿级合成动作数据的抓取基础模型

分享自：
基于十亿级合成动作数据的抓取基础模型

期刊:CoRL 2025
这篇文档属于类型a，是一篇关于机器人抓取基础模型（grasping foundation model）的原创性研究论文。以下是针对该研究的学术报告：
作者及机构本研究由Shengliang Deng（Galbot、The University of Hong Kong）、Mi Yan（Galbot、Peking University）等共同完成，通讯作者为Zhizheng Zhang（Galbot、Beijing Academy of Artificial Intelligence）和He Wang（Galbot、Peking University）。论文尚未标注具体期刊信息，但项目页面已公开（https://pku-epic.github.io/graspvla-web）。
学术背景研究领域：计算机视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人操作中的应用。
 研究动机：现有VLA模型依赖真实世界数据，采集成本高且泛化能力有限。合成数据（synthetic data）虽成本低，但其潜力尚未充分挖掘。
 科学问题：能否通过纯合成数据训练VLA模型，实现从仿真到现实（sim-to-real）的零样本泛化（zero-shot generalization）？
 研究目标：开发基于十亿级合成动作数据的抓取基础模型GraspVLA，解决开放词汇（open-vocabulary）抓取任务中的泛化与适应性挑战。
研究流程1. 数据集构建（Syngrasp-1b）规模与内容：生成包含10,680个物体（240类）的十亿帧抓取数据，覆盖几何、材质、光照等多样化场景。
 
技术方法：
 物体布局：基于Objaverse数据集筛选物体，通过物理仿真（Mujoco）随机生成场景。
 
抓取轨迹合成：使用专家策略（Curobo运动规划算法）生成抗扰动抓取（antipodal grasps），并通过物理验证。
 
视觉渲染：采用Isaac Sim的光线追踪（ray-tracing）技术，随机化光照、背景和相机视角。
 
创新点：首次实现十亿级合成抓取数据，提供精确的3D姿态、相机标定和边界框标注。
 
2. 模型设计（GraspVLA）架构：
 视觉语言模型（VLM）：融合DINOv2和SigLip的视觉编码器，结合InternLM2语言模型。
 
动作生成专家：基于条件流匹配（conditional flow matching）生成末端执行器动作。
 
关键机制：渐进式动作生成（Progressive Action Generation, PAG），将目标检测（visual grounding）和抓取位姿预测作为动作生成的中间步骤，形成链式推理（chain-of-thought）。
 
训练策略：联合训练合成动作数据与互联网语义数据（GRIT数据集），利用合成数据提供几何信息，互联网数据补充语义知识。
 
3. 实验验证零样本泛化测试：
 真实世界：在Franka机械臂上测试，GraspVLA在合成类别和互联网类别上的平均成功率分别达93.3%和86.6%，显著优于基线模型（如π0、OpenVLA）。
 
仿真环境（LIBERO）：在未微调情况下，GraspVLA在长序列任务中的成功率（94.1%）超过已微调的基线模型。
 
对比实验：与AnyGrasp（传统抓取检测算法）相比，GraspVLA在透明物体上的成功率提升至86.6%（AnyGrasp为10%）。
 
小样本适应：仅需100条演示数据即可学习新任务（如避免接触杯内壁），成功率提升至90%。
 
主要结果数据规模效应：模型性能随训练帧数增加而提升，互联网类别的泛化需更多数据支持（图5）。
 
设计选择验证：PAG机制将基础测试集的成功率从66.6%提升至93.3%（表5）。
 
跨平台适配：通过5,000条合成数据微调，模型可快速适配新机械臂（UR5e）和相机配置（腕部视角），成功率超76%。
 
结论与价值科学价值：
 - 首次证明纯合成数据可训练高性能VLA模型，降低真实数据依赖。
 - 提出PAG机制，弥合仿真与现实的语义鸿沟，实现开放词汇抓取。
 应用价值：
 - 为机器人抓取提供低成本、高泛化的基础模型，支持工业场景快速部署。
 - 模型权重与数据集公开，推动社区研究。
研究亮点十亿级合成数据集：首个覆盖多维度随机化的抓取数据集Syngrasp-1b。
 
链式推理架构：PAG将感知与动作生成统一，提升语义泛化能力。
 
零样本性能：在真实与仿真环境中均超越现有模型，透明物体抓取表现突出。
 
其他价值局限性：当前仅支持桌面抓取任务，动态场景适应性待改进。
 
未来方向：扩展至非抓取操作（如推、堆叠）及多模态任务。
 
（报告总字数：约1,500字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问