分享自:

通用机器人策略中的捷径学习:数据集多样性和碎片化的作用

期刊:9th conference on robot learning (corl 2025)

通用机器人策略中的捷径学习:数据集多样性与碎片化的作用

作者与机构
本研究的共同第一作者为Youguang Xing(电子科技大学)和Xu Luo(电子科技大学),通讯作者为Jingkuan Song(同济大学)。其他合作者包括来自电子科技大学和同济大学的研究团队。该研究发表于2025年第九届机器人学习会议(Conference on Robot Learning, CoRL 2025),会议地点为韩国首尔。

学术背景
本研究属于机器人学习与人工智能交叉领域,聚焦于大规模数据集训练的通用机器人策略(generalist robot policies)的泛化能力问题。近年来,随着计算机视觉和自然语言处理领域的成功,机器人学习也开始采用大规模数据集(如Open X-Embodiment, OXE)训练高容量模型(如视觉-语言-动作模型,Vision-Language-Action Models, VLA)。然而,尽管数据规模庞大,这些策略在视觉、语义和行为等多维度的泛化能力仍然有限。本研究旨在揭示这一问题的根源,并提出解决方案。

研究目标
研究团队发现,捷径学习(shortcut learning)——即模型依赖任务无关特征(如视角、背景)而非任务相关特征(如语言指令、目标物体)——是限制泛化能力的关键因素。通过理论分析和实验验证,团队提出数据集的两个结构性缺陷是主要原因:
1. 子数据集内部多样性不足:单一子数据集内任务相关和无关特征的组合有限;
2. 子数据集间分布差异显著(碎片化):不同子数据集因独立采集导致特征分布不重叠。

研究流程与方法
1. 数据集分析
- 研究对象:以OXE数据集(含27个子数据集)为核心,对比视觉与多模态数据集(如ImageNet)。
- 方法
- 多样性度量:基于特征向量的均匀分布性(uniformity metric),计算子数据集内视觉和语言特征的多样性($S{diversity}$)。
- 碎片化度量:通过逆相似性($S
{disparity}$)量化子数据集间分布差异,结合t-SNE可视化验证数据分离现象。
- 结果:OXE子数据集的视觉和语言多样性显著低于多模态数据集(图2),且子数据集间重叠极少(图3),证实碎片化问题。

  1. 理论建模

    • 框架:将任务相关因素($u$,如物体位置)和无关因素($v$,如视角)建模为随机变量,分析其在混合子数据集中的相关性。
    • 关键命题
      • 命题3.1:若子数据集支持集不相交,归一化互信息($I(u,v)$)与多样性负相关;
      • 命题3.2:若子数据集存在重叠,互信息上界随重叠程度增加而降低。
    • 结论:碎片化和低多样性导致$u$与$v$的虚假相关性,促使模型学习捷径。
  2. 实验验证

    • 仿真实验(LIBERO基准)
      • 设计:控制视角($v$)与物体位置($u$)的关联,训练扩散策略(Diffusion Policy)、MiniVLA和π0模型。
      • 变量:调整视角多样性(半径)和子数据集间视角差异(中心距离)。
      • 结果:增加多样性或减少差异显著降低捷径依赖(图6),但若多样性破坏因子独立性(如为每任务分配独立视角),反而加剧碎片化(图7)。
    • 实物实验(AgileX Piper机械臂)
      • 设计:两子数据集分别绑定特定视角与指令,测试模型在视角互换时的表现。
      • 干预:添加“桥梁数据”(第三物体从两视角采集)后,捷径行为完全消除(表1),验证子数据集互联的重要性。
  3. 数据增强策略

    • 视角增强:使用ZeroNVS模型生成跨视角图像,强制模型学习视角不变性(图9)。
    • 物体增强:通过程序化替换物体(如Sim2Real环境),打破物体-场景虚假关联(图10)。实验显示,增强后π0模型的捷径依赖降低68%(仿真)和55%(实物)(表2)。

主要结果与逻辑关联
- 理论分析:揭示了数据集结构与捷径学习的数学关系,为后续实验提供框架。
- 实验验证:在仿真和实物环境中一致证明,子数据集内多样性提升和碎片化减少可有效抑制捷径学习。
- 增强策略:提出无需新数据采集的实用方案,通过增强现有数据提升泛化能力。

结论与价值
1. 科学价值:首次系统论证了大规模机器人数据集的结构性缺陷如何导致捷径学习,填补了机器人学习与因果推理交叉领域的理论空白。
2. 应用价值:为数据集构建提供三条原则:
- 子数据集内需最大化任务相关与无关因子的独立多样性;
- 子数据集间需在关键因子上重叠;
- 允许任务相关因子的分布差异,但最小化无关因子差异。
3. 技术贡献:开发的数据增强方法可直接应用于现有策略(如π0),提升其在仿真和实物环境中的表现。

研究亮点
- 创新发现:揭示了OXE等数据集的“碎片化”特性是泛化瓶颈的核心,挑战了“数据规模决定性能”的传统认知。
- 方法创新:将信息论与机器人学习结合,提出可量化的数据集评估指标($S{diversity}$/$S{disparity}$)。
- 实用性强:增强策略仅需少量计算成本,适合资源受限场景。

其他价值
研究还指出,当前领先策略(如π0.5、Gemini Robotics)的成功实际暗合了本文原则——通过固定非关键因子(如环境或本体)并系统化变动目标因子,避免数据碎片化。这一发现为未来通用机器人策略的设计提供了明确方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com