本报告所分析的文档是由来自ETH Zurich、INSAIT (Sofia University “St. Kliment Ohridski”)、Google及TUM的研究人员Mengya Liu, Siyuan Li, Ajad Chhatkuli, Prune Truong, Luc Van Gool, 和 Federico Tombari共同完成的一篇研究论文的正文部分。这篇论文旨在提出并验证一种名为one2any的全新6D物体姿态估计算法。
6D物体姿态估计,即确定物体在三维空间中的位置(平移)和朝向(旋转),是计算机视觉领域的一项核心任务,在机器人操作、增强现实和场景理解中有着广泛的应用。然而,现有的主流方法面临严峻的通用性、速度和输入要求限制,使得它们难以应对现实世界中“未知”或“未见”的物体。
当前的方法主要可分为三类: 1. 基于模型的方法:需要物体精确的CAD(计算机辅助设计)模型。这类方法通过“渲染-比对”策略进行姿态搜索,但对未见物体获取CAD模型成本高昂。 2. 基于多视图的方法:依赖同一物体的多个(通常为8-200个)参考图像,通过运动恢复结构(SfM)等方法间接重建物体的三维信息。当参考视图稀疏时,性能会急剧下降。 3. 单视图方法:仅需单张参考图像,但通常依赖于两幅图像间的特征点匹配。这类方法在处理无纹理物体、遮挡以及大视角变化时非常脆弱,鲁棒性差。
因此,研究团队的核心目标是:开发一种仅需单个RGB-D参考视图,无需CAD模型、无需多视图数据、也无需特定类别训练,就能估计任意未知物体6D姿态的方法。这将极大降低姿态估计的门槛,提升其在开放世界应用中的实用性。
One2any将未见物体的姿态估计重构为一个条件姿态生成问题。其核心思想是一个编码-解码流程:首先从一个参考视图编码出包含物体形状、朝向和纹理的全面表示;然后,给定一个查询视图,解码器利用该表示预测一个中间几何表示,最终通过闭式解算得相对姿态。
受归一化物体坐标空间(Normalized Object Coordinate Space, NOCS)的启发,作者提出了参考物体坐标(Reference Object Coordinate, ROC) 这一关键概念。与NOCS将所有物体对齐到一个固定的“规范”坐标系不同,ROC将物体坐标定义在参考图像的相机坐标系下,并通过一个缩放平移矩阵S归一化到一个标准空间。这样,ROC仅依赖于参考帧,避免了为不同类别定义统一规范帧的困难。
对于查询图像,其ROC的真实值可以通过已知的相对姿态 [R|t],将查询视图下的物体点云变换到参考相机坐标系下,再应用相同的归一化矩阵S得到。这个ROC图是一个与图像尺寸对应的2D映射,每个像素的RGB值编码了该点在参考相机空间下的归一化3D坐标。
整个模型包含两个主要分支:参考物体编码器(ROE)和物体姿态解码器(OPD)。其工作流程如下图所示(描述性总结): * 输入:一张参考RGB-D图像(含物体掩码)和一张查询RGB图像。 * 步骤一:生成参考物体姿态嵌入(ROPE) * 模块:参考物体编码器(ROE)。这是一个包含卷积层和残差连接的轻量级网络。 * 输入:参考RGB图像、参考ROC图(由参考深度和掩码通过公式计算得到)、物体掩码。 * 过程:ROE将这三个通道的信息融合,编码成一个紧凑的潜在向量,即参考物体姿态嵌入(Reference Object Pose Embedding, ROPE)。该嵌入旨在捕获物体的纹理、几何形状以及其在参考视图中的初始姿态先验。 * 步骤二:解码查询图像的ROC图 * 模块:物体姿态解码器(OPD)。该模块基于一个预训练的VQ-VAE模型和U-Net架构构建。 * 过程: 1. 使用预训练的VQ-VAE编码器提取查询RGB图像的特征图。 2. 将上一步得到的ROPE嵌入通过交叉注意力(Cross-Attention) 机制注入到U-Net的各个层级中。具体来说,在U-Net的每个交叉注意力层,查询特征作为“Query”,而来自ROPE的嵌入作为“Key”和“Value”,使得解码过程能够被参考物体的信息有效地条件化。 3. U-Net解码器整合这些条件化特征,逐步上采样,最终输出预测的查询ROC图。 * 步骤三:从ROC图计算6D姿态 * 过程:得到预测的ROC图后,结合查询图像的深度信息和掩码,可以恢复出查询物体在参考相机坐标系下的预测3D点云。具体做法是,对ROC图应用逆归一化变换 S⁻¹。 * 算法:最后,使用Kabsch-Umeyama算法(一种最小二乘刚体变换求解算法)计算查询点云(原始坐标系)与预测的参考坐标系点云之间的最优旋转R和平移t,即为所求的相对6D姿态。 * 训练与推理优化: * 训练损失:使用平滑L1损失直接监督预测的ROC图与真实ROC图之间的差异,仅在物体掩码区域内计算损失。 * 推理加速:为了达到实时速度,在推理时完全绕开了耗时的扩散采样过程,仅以确定性的前馈方式运行U-Net,显著提升了效率。
研究团队在多个标准基准数据集上进行了广泛的实验,包括Real275、Toyota-Light、YCB-Video(遮挡场景)、LINEMOD(大视角变化)等,以评估one2any的泛化能力、鲁棒性和速度。
在Real275和Toyota-Light数据集上,one2any在仅使用单视图参考的条件下,在平均召回率(AR)和ADD-0.1d等关键指标上均显著超越了所有其他单视图方法(如Oryon、ObjectMatch),证明了其卓越的泛化能力。
在极具挑战性的遮挡YCB-Video数据集上,one2any的表现尤为突出。它不仅大幅领先于其他单视图方法(Oryon因找不到可靠匹配而失败,NOPE在参考视图被遮挡时预测不准),甚至超越了大多数需要多视图参考的方法(如FS6D),仅略逊于使用16个带真值姿态视图来生成高质量CAD模型的FoundationPose。这表明one2any的ROPE嵌入和ROC预测机制对遮挡具有极强的鲁棒性。
在LINEMOD数据集上,相机绕物体旋转近360度。当仅使用第一帧作为参考时,基于特征匹配的方法(Oryon)在无纹理物体上完全失效。One2any则能够稳定地预测姿态,在一些物体上甚至达到了与多视图方法竞争的性能,显示了其应对大视角差异的能力。
在YCB-Video的完整视频序列上进行姿态跟踪测试(仅用第一帧初始化,后续不再更新参考),one2any取得了与专门设计的基于CAD模型的跟踪方法(如ICG)相媲美的结果,并且显著优于仅用单视图生成CAD模型进行跟踪的FoundationPose。结合其极快的推理速度,证明了其在动态场景中的应用潜力。
One2any采用前馈式编码-解码架构,无需在线渲染、特征匹配搜索或复杂的优化步骤。在NVIDIA RTX 4090 GPU上,其单帧处理时间仅需0.09秒,比基于CAD渲染比对的方法(如Megapose, Gigapose)快一个数量级以上,也比基于匹配的方法(Oryon: 0.9秒)快约10倍,实现了接近实时的性能。
消融研究验证了各个设计选择的必要性: * ROC表示的有效性:将预测ROC图的解码器替换为直接预测旋转和平移的回归头,各项指标大幅下降,证明了ROC作为中间表示的优越性。 * 参考输入的选择:实验表明,同时包含RGB(纹理)和ROC(几何)的参考输入能获得最佳性能。仅使用RGB或深度信息效果较差,仅使用ROC则缺失了重要的纹理线索。 * 查询特征提取器:对比VQ-VAE和DINOv2特征,两者性能相近,说明框架对不同的特征骨干具有兼容性。 * 查询图像中的深度:在查询分支额外加入深度信息反而会降低性能,可能是因为预训练的VQ-VAE RGB特征已足够有效,额外的深度信息可能引入冗余或冲突。
本研究表明,one2any成功地实现了一种高效、鲁棒且通用的6D物体姿态估计方法。其核心贡献在于: * 提出了一个新颖的编码-解码框架,将姿态估计转化为条件生成问题,绕过了对显式3D模型、多视图数据或脆弱特征匹配的依赖。 * 引入了参考物体坐标(ROC)和参考物体姿态嵌入(ROPE) 这两个关键概念,构建了一个动态适应参考视图的对象空间,为从单视图学习泛化性强的物体表示提供了有效途径。 * 在精度、速度和鲁棒性之间取得了卓越的平衡。实验证明,即使只有一个参考视图,one2any在多个挑战性场景下的性能可与需要多视图或CAD模型的方法相媲美,同时计算开销极低。
该工作为后续研究开辟了多个方向:例如,如何进一步利用大规模预训练视觉基础模型来增强ROPE的编码能力;如何将框架扩展到更加极端的稀疏输入(如仅有RGB而无深度);以及如何应用于机器人抓取、交互式AR等实时任务中。论文代码已开源,便于社区复现和进一步发展。