分享自:

机器人双臂协作挑战赛:CVPR 2025 MEIS 研讨会上的RobotWin基准测试

期刊:CVPR 2025 MEIS Workshop

类型b:

RobotWin双机械臂协作挑战赛:CVPR 2025 MEIS研讨会竞赛报告

本文档是由Tianxing Chen、Kaixuan Wang、Zhaohui Yang等来自香港大学(HKU MMLab)、上海交通大学(SJTU)、D-Robotics、Agilex Robotics、华为德国(Huawei Germany)等机构的学者联合撰写的竞赛技术报告,发布于arXiv预印本平台(arXiv:2506.23351v2)。该报告详细介绍了在CVPR 2025第二届MEIS研讨会上举办的“RobotWin双机械臂协作挑战赛”的设计、任务、参赛团队表现及关键发现。

竞赛背景与目标

竞赛聚焦于具身人工智能(Embodied AI)领域,旨在推动双机械臂协作操控技术的发展。当前单臂机器人系统已能完成许多任务,但复杂操作(如刚性物体、可变形物体和触觉敏感物体的协同操控)仍需双机械臂系统。为此,竞赛基于RobotWin仿真平台(1.0和2.0版本)和Agilex Cobot-Magic实体机器人平台,设计了三个阶段:仿真第一轮、仿真第二轮和真实世界决赛。竞赛吸引了全球64支团队、400余名参与者,覆盖了17项双机械臂任务,涉及刚性物体堆叠、可变形物体折叠和触觉分类等场景。

竞赛结构与任务设计

竞赛分为三轮:
1. 仿真第一轮:包含5项刚性物体操控任务(如堆叠碗、放置鞋子)和1项触觉分类任务,任务场景与训练环境一致,评估模型的基线性能。
2. 仿真第二轮:难度提升,引入领域随机化(domain randomization),包括背景纹理、光照变化和桌面高度随机化,要求单一模型完成6项任务,并支持语言指令解析。
3. 真实世界决赛:基于Cobot-Magic平台,设计了倒水、折叠毛巾、叠盘子等5项任务,测试模型从仿真到实物的迁移能力。

优秀解决方案与关键发现

竞赛中表现突出的解决方案包括:
1. AnchorDP3(JD-TFS团队):通过稀疏关键姿态(keyposes)预测替代传统密集动作序列,显著提升计算效率。其核心创新包括:(1) 基于物体功能锚点(如抓取前姿态)的动作表示;(2) 轻量级任务专用编码器;(3) 联合角度与末端执行器位姿的协同预测。该方案在仿真赛道中取得了98.7%的成功率。
2. SEM(TSAIL-HRL团队):将多视角视觉与深度信息融合为3D空间表征,并采用扩散策略(diffusion policy)生成动作。其空间增强器(spatial enhancer)和机器人状态编码器(robot state encoder)显著提升了复杂场景下的鲁棒性。

竞赛的学术启示

通过分析参赛方案,报告总结了以下关键见解:
1. 模型容量与任务复杂度匹配:简单任务可用轻量级模型,而长时程规划或多对象协同任务需更高容量模型。例如,Momoda团队通过扩大模型规模和数据量,将双鞋放置任务成功率从48.2%提升至95.1%。
2. 多模态融合的重要性:视觉、深度和语言模态的融合能显著提升泛化能力。例如,VMV团队发现简洁指令比复杂指令更利于任务泛化。
3. 数据质量与规模的平衡:大规模中等质量数据(LSMQ-D)结合小规模高质量数据(SSHQ-D)的两阶段训练策略(JD-TFS团队采用)能有效弥合仿真-实物差距。
4. 真实世界挑战的难点:可变形物体操控和长时程任务依赖仍是主要瓶颈。例如,折叠毛巾任务的最高得分仅为2.1(满分20),凸显了动态建模的难度。

未来研究方向

报告提出以下未来重点:
1. 长时程与多阶段任务学习:需开发具备记忆和规划能力的策略。
2. 可变形物体操控:需改进仿真引擎和策略架构以处理高维动力学。
3. 评估指标优化:当前二值化成功/失败评分可能低估部分成功行为,需设计渐进式评分标准。

竞赛影响与价值

该挑战赛为双机械臂协作领域提供了标准化评测平台,推动了通用化策略学习的研究。其创新性体现在:(1) 首次系统性评测多模态(视觉、触觉、语言)双机械臂任务;(2) 提出了仿真与实物协同评测框架;(3) 揭示了3D表征在策略学习中的优势。竞赛结果和数据集(RobotWin 2.0)将持续支持具身智能研究,并为工业应用(如物流分拣、家庭服务机器人)提供技术参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com