分享自:

点云至关重要:重新审视不同观测空间对机器人学习的影响

期刊:38th conference on neural information processing systems (NeurIPS 2024)

基于点云观测的机器人学习性能评估与基准研究

一、 研究团队与发表信息

本研究由来自中国科学技术大学、上海人工智能实验室、西北工业大学和浙江大学的研究人员共同完成。主要作者包括Haoyi Zhu、Yating Wang、Di Huang、Weicai Ye、Wanli Ouyang和Tong He。该研究论文已提交至第38届神经信息处理系统大会(NeurIPS 2024)的数据集与基准赛道。

二、 学术背景与研究目标

主要科学领域: 本研究属于机器人学习(Robot Learning)与计算机视觉的交叉领域,具体聚焦于机器人感知中的观测空间(Observation Space)表征问题。

研究背景与动机: 在机器人学习领域,视觉观测使机器人能够感知并与复杂环境交互。当前研究主要集中于策略(Policy)设计,但策略的性能高度依赖于其输入——即从原始传感器数据中提取的世界状态或特征。不同的观测模态,如RGB图像、RGB-D图像和点云(Point Cloud),因其数据特性的根本差异,可能对学习模型的性能、泛化能力和鲁棒性产生决定性影响。然而,现有文献缺乏一个统一、公平的框架来系统比较不同观测空间在机器人学习任务中的影响。这导致了一个关键问题:观测空间的选择本身可能成为机器人学习性能提升的瓶颈。因此,深入探究不同观测模态的优劣,对于指导未来机器人模型的设计至关重要。

研究目标: 本研究旨在系统性探究不同观测空间(RGB、RGB-D、点云)对机器人学习性能的影响。具体目标包括:1)构建一个标准化的基准(Benchmark)和实验管线,以公平比较不同模态;2)评估不同模态在多种接触式操作任务上的性能;3)分析其从零训练和利用预训练视觉表征(Pre-trained Visual Representations, PVRS)时的表现;4)测试它们在相机视角、光照、视觉外观变化下的零样本泛化能力;5)探索影响点云方法性能的关键设计决策。

三、 详细研究流程与方法

本研究构建了一个名为ObsBench的综合基准,并基于此进行了一系列严谨的实验。其详细工作流程如下:

1. 基准构建(ObsBench): * 仿真器与任务: 研究采用两个主流的机器人仿真器——Maniskill2(基于Sapien物理引擎)和RLBench(基于CoppeliaSim物理引擎),以确保结果的代表性和鲁棒性。从这两个仿真器中,研究选取了125个接触丰富的操作任务,并为所有任务提供了包含所有观测模态的真实示范轨迹。为了在计算资源限制下进行深入分析,最终选取了其中19个多样化、具有代表性的任务进行核心实验(例如抓取立方体、堆叠、插入、倾倒液体等)。 * 标准化管线: 研究实现了标准化的训练和评估管线,确保除观测模态和对应的编码器外,所有其他条件(训练数据、预处理流程、策略网络架构、超参数)完全一致,从而保证比较的公平性。

2. 编码器与策略网络: * 观测模态与编码器: 针对三种主要模态,研究选用了具有相似模型规模的经典编码器。 * RGB图像: 使用ResNet和Vision Transformer(ViT)。 * RGB-D图像: 使用通道堆叠的ResNet和ViT,以及专门为多模态设计的MultiViT。 * 点云: 使用经典的PointNet和广泛应用于3D感知的稀疏卷积网络SparseUNet(SpUNet)。对于点云特征提取,采用最远点采样(FPS)和K近邻(KNN)聚类后接池化的通用方法。 * 策略网络: 实现了两种先进的策略网络——动作分块变换器(Action Chunking Transformer, ACT)和扩散策略(Diffusion Policy),以验证结论在不同策略范式下的普适性。

3. 实验设计与流程: 研究通过一系列实验来回答五个核心研究问题(Q1-Q5): * Q1(不同观测空间的性能影响): 所有编码器均从零开始(From Scratch)在19个任务上训练,使用相同的策略网络和超参数,仅改变输入模态和对应编码器。评估指标为平均成功率(Mean S.R.)和平均排名(Mean Rank)。 * Q2(预训练视觉表征的影响): 为每种模态的编码器加载当前最先进的预训练模型(PVRs),例如RGB的R3M和VC-1,RGB-D的MultiMAE,点云的PonderV2。评估其在相同任务上的性能提升。 * Q3(零样本泛化能力): 在训练完成后,在不进行额外微调的情况下,测试模型对以下变化的泛化能力: * 相机视角变化: 将测试视角在垂直和水平方向上分别偏移5度和10度。 * 视觉变化: 在Maniskill2的stackcube任务上测试模型对光照强度(6个等级)、渲染噪声(通过改变光线追踪采样数模拟)和背景颜色(红/绿不同强度)变化的鲁棒性。 * Q4(样本效率): 在RLBench任务上,仅使用10条和25条示范轨迹(原为100条)进行训练,评估不同模态在数据稀缺情况下的学习效率。 * Q5(点云观测空间的设计决策): 通过消融实验探究影响点云方法性能的关键因素: * 采样策略: 比较预采样(在编码器前对原始点云进行FPS采样)和后采样(在编码器输出的特征图上进行FPS采样)。 * 特征信息: 分析颜色信息坐标信息的相对重要性,以及结合两者的效果。 * 点图(Pointmap)格式: 探索一种将RGB图像与像素的显式坐标(基于UV坐标)堆叠而成的“平面点云”格式,并使用点云网络处理,以对比其与原始点云和RGB-D的性能差异。 * 补充消融实验: 包括使用相同编码器架构处理不同模态、比较扩散策略的不同变体(U-Net vs Transformer)、以及分析点云坐标系(世界坐标系 vs 末端执行器坐标系)的影响。 * 真实世界验证: 使用开源的低成本机器人平台(配备Intel RealSense D415 RGB-D相机)进行了三项真实世界任务(接触立方体、抓取立方体、折叠布料)的初步验证,以检验仿真结论的可靠性。

4. 数据分析流程: 所有实验均基于ObsBench标准管线运行,记录每个任务的成功率。通过计算跨任务的平均成功率和平均排名来综合评价不同方法。对于泛化实验,记录在不同扰动条件下的成功率变化趋势。对于消融实验,通过控制变量法比较不同设置下的性能差异。

四、 主要研究结果

1. 不同观测空间的性能对比(Q1): * 点云模态表现最佳: 无论是使用ACT策略还是扩散策略,基于点云的编码器(SpUNet和PointNet)在19个任务上取得了最高的平均成功率和最好的平均排名。例如,在使用扩散策略时,SpUNet和PointNet的平均成功率比表现次优的其他模态方法分别高出53.85%和76.92%。点云方法在所有任务中均位列第一或第二,显示了其稳健的优越性。 * 深度模态的局限性: 尽管提供了几何信息,但仅使用深度图、通道堆叠的RGB-D或使用MultiViT分别处理RGB和深度信息,其性能普遍低于或仅与纯RGB方法相当,甚至有时更差。研究表明,深度图数据分布不稳定(受物体距离、背景前景差异影响大),而显式的3D表征(如点云)对于获得最佳性能至关重要

2. 预训练视觉表征的影响(Q2): * PVRs带来平均性能提升: 使用预训练模型通常能提高各模态的平均性能,尽管并非在所有单个任务上都有效。 * 点云PVR的数据效率惊人: 点云的预训练模型PonderV2仅使用了数千(k)级的预训练数据(多视图渲染任务),而RGB的R3M、VC-1和RGB-D的MultiMAE使用了百万(m)级的数据。尽管数据量小几个数量级,PonderV2带来的性能增益与VC-1和MultiMAE相当,甚至在某些情况下更优。这表明,富含几何知识的预训练任务对于机器人学习可能比数据规模更重要。

3. 零样本泛化能力(Q3): * 相机视角泛化: 所有方法都受到相机视角变化的显著影响,即使仅偏移5度。然而,点云方法(无论是从零训练还是预训练)表现出更强的韧性。这凸显了从2D图像推断3D动作的内在不适定性,以及点云表征在视角变化下的潜在优势。 * 视觉变化泛化: 在光照、噪声和背景颜色变化下,点云方法(尤其是SpUNet)通常表现出比RGB和RGB-D方法更好的鲁棒性。一个有趣的发现是:SpUNet(基于稀疏卷积)对前景视觉变化更鲁棒,而PointNet(基于点操作)对相机视角变化更鲁棒。研究推测,稀疏卷积保持了局部性有助于抗噪声,而点网络对全局信息的强调有助于应对几何变化。 * PVRs提升泛化能力: 使用预训练模型(特别是MultiMAE和PonderV2)通常能提升模型的泛化能力,因为预训练过程中融入的语义知识提供了额外的 invariance(不变性)。

4. 样本效率(Q4): * 在仅有10或25条示范轨迹的少样本设置下,点云观测空间并未显示出显著的样本效率优势。 * 一个关键发现是,预训练模型(PVRs)在数据稀缺时能显著提升所有模态的性能。即使是数据量很小的PonderV2,也显示了明显的提升,这表明预训练模型在少样本学习场景中极具价值。

5. 点云设计决策的影响(Q5): * 后采样优于预采样: 在编码器之后进行特征图采样(后采样)能显著提升点云方法的性能,因为它能更好地保留局部信息。这与许多先前默认使用预采样的文献形成了对比。 * 坐标信息比颜色信息更重要: 消融实验表明,移除坐标特征导致的性能下降远大于移除颜色特征。这再次证明了利用显式3D结构信息的必要性。同时,结合颜色和坐标信息能获得最佳结果。 * 点图格式的潜力与局限: 将RGB图像与坐标信息堆叠成的“点图”格式,其性能** consistently 优于纯RGB和RGB-D方法,但仍然落后于真正的3D点云方法**,尤其是在使用扩散策略时。研究者认为,这可能是因为点图的邻域局部性被限制在2D平面,而点云保持了3D空间的局部性。

6. 真实世界实验: 在三个真实机器人任务上的初步实验结果与仿真实验结论一致,点云方法取得了最高的成功率,进一步支持了研究的核心结论。

五、 研究结论与价值

结论: 本研究通过系统性的基准测试和实验分析,得出了一个明确且强有力的结论:点云是一种极具前景的机器人学习观测模态。无论是在从零训练还是利用预训练模型的情况下,点云方法在任务成功率、鲁棒性(对视角和视觉变化的泛化能力)方面 consistently 优于基于RGB和RGB-D图像的方法。研究强调了显式3D表征对于机器人操作任务的重要性,并揭示了深度图作为中间表示的局限性。此外,研究还指出了提升点云方法性能的关键设计,如后采样策略以及同时利用外观(颜色)和几何(坐标)信息

价值与意义: * 科学价值: 本研究首次大规模、系统性地比较了不同观测空间对机器人学习的影响,填补了该领域的空白。研究结果挑战了当前以2D RGB图像为主导的机器人视觉研究范式,为3D感知在机器人学习中的核心地位提供了实证依据。提出的ObsBench基准为未来相关研究提供了公平、可复现的评估平台。 * 应用价值: 为机器人学习系统的设计提供了明确的指导:在构建需要高精度操作和强泛化能力的机器人系统时,应优先考虑使用点云作为观测输入。研究还表明,即使是小规模但设计合理的3D预训练任务,也能带来显著的性能增益,这为开发高效的3D基础模型指明了方向。 * 重要观点: 观测空间的选择与策略设计同等重要,是机器人学习系统性能的关键瓶颈之一。未来研究应更关注如何更好地利用3D信息,并探索动态采样、多模态融合(如触觉)等方向。

六、 研究亮点

  1. 开创性的系统性比较: 首次构建了涵盖125个任务、多种模态、编码器和策略的标准化基准(ObsBench),对机器人学习的观测空间进行了迄今为止最全面的实证研究。
  2. 颠覆性的核心发现: 明确论证了点云观测在机器人学习中的综合优势,挑战了基于2D图像的主流做法,为领域发展提供了新的方向性见解。
  3. 深入的机理分析: 不仅比较了性能,还深入分析了不同模态在泛化能力、样本效率上的差异,并揭示了深度信息表现不佳的原因。
  4. 实用的设计指南: 通过细致的消融实验,为如何使用点云提供了具体、可操作的最佳实践建议(如后采样、坐标与颜色信息并用),对工程实践具有直接指导意义。
  5. 对预训练范式的启示: 发现小规模但富含几何知识的3D预训练(如PonderV2)可以与大规模2D预训练媲美,这为开发数据高效的3D基础模型提供了重要线索。

七、 其他有价值的内容

研究还讨论了当前工作的局限性,例如点云方法在样本效率上未显优势,以及未来需要探索利用更大规模3D数据集、动态采样技术和多模态融合。作者开源了所有代码和基准,并进行了初步的真实世界验证,增强了研究的可复现性和可信度。他们指出,尽管短期看该工作无负面社会影响,但长期来看,随着机器人系统变得更强大,研究如何防止其造成伤害至关重要。这些讨论体现了研究的严谨性和前瞻性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com