点云至关重要：重新审视不同观测空间对机器人学习的影响

分享自：
点云至关重要：重新审视不同观测空间对机器人学习的影响

期刊:38th conference on neural information processing systems (NeurIPS 2024)
基于点云观测的机器人学习性能评估与基准研究
一、 研究团队与发表信息
本研究由来自中国科学技术大学、上海人工智能实验室、西北工业大学和浙江大学的研究人员共同完成。主要作者包括Haoyi Zhu、Yating Wang、Di Huang、Weicai Ye、Wanli Ouyang和Tong He。该研究论文已提交至第38届神经信息处理系统大会（NeurIPS 2024）的数据集与基准赛道。
二、 学术背景与研究目标
主要科学领域： 本研究属于机器人学习（Robot Learning）与计算机视觉的交叉领域，具体聚焦于机器人感知中的观测空间（Observation Space）表征问题。
研究背景与动机： 在机器人学习领域，视觉观测使机器人能够感知并与复杂环境交互。当前研究主要集中于策略（Policy）设计，但策略的性能高度依赖于其输入——即从原始传感器数据中提取的世界状态或特征。不同的观测模态，如RGB图像、RGB-D图像和点云（Point Cloud），因其数据特性的根本差异，可能对学习模型的性能、泛化能力和鲁棒性产生决定性影响。然而，现有文献缺乏一个统一、公平的框架来系统比较不同观测空间在机器人学习任务中的影响。这导致了一个关键问题：观测空间的选择本身可能成为机器人学习性能提升的瓶颈。因此，深入探究不同观测模态的优劣，对于指导未来机器人模型的设计至关重要。
研究目标： 本研究旨在系统性探究不同观测空间（RGB、RGB-D、点云）对机器人学习性能的影响。具体目标包括：1）构建一个标准化的基准（Benchmark）和实验管线，以公平比较不同模态；2）评估不同模态在多种接触式操作任务上的性能；3）分析其从零训练和利用预训练视觉表征（Pre-trained Visual Representations, PVRS）时的表现；4）测试它们在相机视角、光照、视觉外观变化下的零样本泛化能力；5）探索影响点云方法性能的关键设计决策。
三、 详细研究流程与方法
本研究构建了一个名为ObsBench的综合基准，并基于此进行了一系列严谨的实验。其详细工作流程如下：
1. 基准构建（ObsBench）： * 仿真器与任务： 研究采用两个主流的机器人仿真器——Maniskill2（基于Sapien物理引擎）和RLBench（基于CoppeliaSim物理引擎），以确保结果的代表性和鲁棒性。从这两个仿真器中，研究选取了125个接触丰富的操作任务，并为所有任务提供了包含所有观测模态的真实示范轨迹。为了在计算资源限制下进行深入分析，最终选取了其中19个多样化、具有代表性的任务进行核心实验（例如抓取立方体、堆叠、插入、倾倒液体等）。 * 标准化管线： 研究实现了标准化的训练和评估管线，确保除观测模态和对应的编码器外，所有其他条件（训练数据、预处理流程、策略网络架构、超参数）完全一致，从而保证比较的公平性。
2. 编码器与策略网络： * 观测模态与编码器： 针对三种主要模态，研究选用了具有相似模型规模的经典编码器。 * RGB图像： 使用ResNet和Vision Transformer（ViT）。 * RGB-D图像： 使用通道堆叠的ResNet和ViT，以及专门为多模态设计的MultiViT。 * 点云： 使用经典的PointNet和广泛应用于3D感知的稀疏卷积网络SparseUNet（SpUNet）。对于点云特征提取，采用最远点采样（FPS）和K近邻（KNN）聚类后接池化的通用方法。 * 策略网络： 实现了两种先进的策略网络——动作分块变换器（Action Chunking Transformer, ACT）和扩散策略（Diffusion Policy），以验证结论在不同策略范式下的普适性。
3. 实验设计与流程： 研究通过一系列实验来回答五个核心研究问题（Q1-Q5）： * Q1（不同观测空间的性能影响）： 所有编码器均从零开始（From Scratch）在19个任务上训练，使用相同的策略网络和超参数，仅改变输入模态和对应编码器。评估指标为平均成功率（Mean S.R.）和平均排名（Mean Rank）。 * Q2（预训练视觉表征的影响）： 为每种模态的编码器加载当前最先进的预训练模型（PVRs），例如RGB的R3M和VC-1，RGB-D的MultiMAE，点云的PonderV2。评估其在相同任务上的性能提升。 * Q3（零样本泛化能力）： 在训练完成后，在不进行额外微调的情况下，测试模型对以下变化的泛化能力： * 相机视角变化： 将测试视角在垂直和水平方向上分别偏移5度和10度。 * 视觉变化： 在Maniskill2的stackcube任务上测试模型对光照强度（6个等级）、渲染噪声（通过改变光线追踪采样数模拟）和背景颜色（红/绿不同强度）变化的鲁棒性。 * Q4（样本效率）： 在RLBench任务上，仅使用10条和25条示范轨迹（原为100条）进行训练，评估不同模态在数据稀缺情况下的学习效率。 * Q5（点云观测空间的设计决策）： 通过消融实验探究影响点云方法性能的关键因素： * 采样策略： 比较预采样（在编码器前对原始点云进行FPS采样）和后采样（在编码器输出的特征图上进行FPS采样）。 * 特征信息： 分析颜色信息和坐标信息的相对重要性，以及结合两者的效果。 * 点图（Pointmap）格式： 探索一种将RGB图像与像素的显式坐标（基于UV坐标）堆叠而成的“平面点云”格式，并使用点云网络处理，以对比其与原始点云和RGB-D的性能差异。 * 补充消融实验： 包括使用相同编码器架构处理不同模态、比较扩散策略的不同变体（U-Net vs Transformer）、以及分析点云坐标系（世界坐标系 vs 末端执行器坐标系）的影响。 * 真实世界验证： 使用开源的低成本机器人平台（配备Intel RealSense D415 RGB-D相机）进行了三项真实世界任务（接触立方体、抓取立方体、折叠布料）的初步验证，以检验仿真结论的可靠性。
4. 数据分析流程： 所有实验均基于ObsBench标准管线运行，记录每个任务的成功率。通过计算跨任务的平均成功率和平均排名来综合评价不同方法。对于泛化实验，记录在不同扰动条件下的成功率变化趋势。对于消融实验，通过控制变量法比较不同设置下的性能差异。
四、 主要研究结果
1. 不同观测空间的性能对比（Q1）： * 点云模态表现最佳： 无论是使用ACT策略还是扩散策略，基于点云的编码器（SpUNet和PointNet）在19个任务上取得了最高的平均成功率和最好的平均排名。例如，在使用扩散策略时，SpUNet和PointNet的平均成功率比表现次优的其他模态方法分别高出53.85%和76.92%。点云方法在所有任务中均位列第一或第二，显示了其稳健的优越性。 * 深度模态的局限性： 尽管提供了几何信息，但仅使用深度图、通道堆叠的RGB-D或使用MultiViT分别处理RGB和深度信息，其性能普遍低于或仅与纯RGB方法相当，甚至有时更差。研究表明，深度图数据分布不稳定（受物体距离、背景前景差异影响大），而显式的3D表征（如点云）对于获得最佳性能至关重要。
2. 预训练视觉表征的影响（Q2）： * PVRs带来平均性能提升： 使用预训练模型通常能提高各模态的平均性能，尽管并非在所有单个任务上都有效。 * 点云PVR的数据效率惊人： 点云的预训练模型PonderV2仅使用了数千（k）级的预训练数据（多视图渲染任务），而RGB的R3M、VC-1和RGB-D的MultiMAE使用了百万（m）级的数据。尽管数据量小几个数量级，PonderV2带来的性能增益与VC-1和MultiMAE相当，甚至在某些情况下更优。这表明，富含几何知识的预训练任务对于机器人学习可能比数据规模更重要。
3. 零样本泛化能力（Q3）： * 相机视角泛化： 所有方法都受到相机视角变化的显著影响，即使仅偏移5度。然而，点云方法（无论是从零训练还是预训练）表现出更强的韧性。这凸显了从2D图像推断3D动作的内在不适定性，以及点云表征在视角变化下的潜在优势。 * 视觉变化泛化： 在光照、噪声和背景颜色变化下，点云方法（尤其是SpUNet）通常表现出比RGB和RGB-D方法更好的鲁棒性。一个有趣的发现是：SpUNet（基于稀疏卷积）对前景视觉变化更鲁棒，而PointNet（基于点操作）对相机视角变化更鲁棒。研究推测，稀疏卷积保持了局部性有助于抗噪声，而点网络对全局信息的强调有助于应对几何变化。 * PVRs提升泛化能力： 使用预训练模型（特别是MultiMAE和PonderV2）通常能提升模型的泛化能力，因为预训练过程中融入的语义知识提供了额外的 invariance（不变性）。
4. 样本效率（Q4）： * 在仅有10或25条示范轨迹的少样本设置下，点云观测空间并未显示出显著的样本效率优势。 * 一个关键发现是，预训练模型（PVRs）在数据稀缺时能显著提升所有模态的性能。即使是数据量很小的PonderV2，也显示了明显的提升，这表明预训练模型在少样本学习场景中极具价值。
5. 点云设计决策的影响（Q5）： * 后采样优于预采样： 在编码器之后进行特征图采样（后采样）能显著提升点云方法的性能，因为它能更好地保留局部信息。这与许多先前默认使用预采样的文献形成了对比。 * 坐标信息比颜色信息更重要： 消融实验表明，移除坐标特征导致的性能下降远大于移除颜色特征。这再次证明了利用显式3D结构信息的必要性。同时，结合颜色和坐标信息能获得最佳结果。 * 点图格式的潜力与局限： 将RGB图像与坐标信息堆叠成的“点图”格式，其性能** consistently 优于纯RGB和RGB-D方法，但仍然落后于真正的3D点云方法**，尤其是在使用扩散策略时。研究者认为，这可能是因为点图的邻域局部性被限制在2D平面，而点云保持了3D空间的局部性。
6. 真实世界实验： 在三个真实机器人任务上的初步实验结果与仿真实验结论一致，点云方法取得了最高的成功率，进一步支持了研究的核心结论。
五、 研究结论与价值
结论： 本研究通过系统性的基准测试和实验分析，得出了一个明确且强有力的结论：点云是一种极具前景的机器人学习观测模态。无论是在从零训练还是利用预训练模型的情况下，点云方法在任务成功率、鲁棒性（对视角和视觉变化的泛化能力）方面 consistently 优于基于RGB和RGB-D图像的方法。研究强调了显式3D表征对于机器人操作任务的重要性，并揭示了深度图作为中间表示的局限性。此外，研究还指出了提升点云方法性能的关键设计，如后采样策略以及同时利用外观（颜色）和几何（坐标）信息。
价值与意义： * 科学价值： 本研究首次大规模、系统性地比较了不同观测空间对机器人学习的影响，填补了该领域的空白。研究结果挑战了当前以2D RGB图像为主导的机器人视觉研究范式，为3D感知在机器人学习中的核心地位提供了实证依据。提出的ObsBench基准为未来相关研究提供了公平、可复现的评估平台。 * 应用价值： 为机器人学习系统的设计提供了明确的指导：在构建需要高精度操作和强泛化能力的机器人系统时，应优先考虑使用点云作为观测输入。研究还表明，即使是小规模但设计合理的3D预训练任务，也能带来显著的性能增益，这为开发高效的3D基础模型指明了方向。 * 重要观点： 观测空间的选择与策略设计同等重要，是机器人学习系统性能的关键瓶颈之一。未来研究应更关注如何更好地利用3D信息，并探索动态采样、多模态融合（如触觉）等方向。
六、 研究亮点
开创性的系统性比较： 首次构建了涵盖125个任务、多种模态、编码器和策略的标准化基准（ObsBench），对机器人学习的观测空间进行了迄今为止最全面的实证研究。
颠覆性的核心发现： 明确论证了点云观测在机器人学习中的综合优势，挑战了基于2D图像的主流做法，为领域发展提供了新的方向性见解。
深入的机理分析： 不仅比较了性能，还深入分析了不同模态在泛化能力、样本效率上的差异，并揭示了深度信息表现不佳的原因。
实用的设计指南： 通过细致的消融实验，为如何使用点云提供了具体、可操作的最佳实践建议（如后采样、坐标与颜色信息并用），对工程实践具有直接指导意义。
对预训练范式的启示： 发现小规模但富含几何知识的3D预训练（如PonderV2）可以与大规模2D预训练媲美，这为开发数据高效的3D基础模型提供了重要线索。
七、 其他有价值的内容
研究还讨论了当前工作的局限性，例如点云方法在样本效率上未显优势，以及未来需要探索利用更大规模3D数据集、动态采样技术和多模态融合。作者开源了所有代码和基准，并进行了初步的真实世界验证，增强了研究的可复现性和可信度。他们指出，尽管短期看该工作无负面社会影响，但长期来看，随着机器人系统变得更强大，研究如何防止其造成伤害至关重要。这些讨论体现了研究的严谨性和前瞻性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问