One2Any：基于单参考图像的任意物体6D姿态估计方法

分享自：
One2Any：基于单参考图像的任意物体6D姿态估计方法

期刊:CVPR
本报告所分析的文档是由来自ETH Zurich、INSAIT (Sofia University “St. Kliment Ohridski”)、Google及TUM的研究人员Mengya Liu, Siyuan Li, Ajad Chhatkuli, Prune Truong, Luc Van Gool, 和 Federico Tombari共同完成的一篇研究论文的正文部分。这篇论文旨在提出并验证一种名为one2any的全新6D物体姿态估计算法。
一、研究背景与动机6D物体姿态估计，即确定物体在三维空间中的位置（平移）和朝向（旋转），是计算机视觉领域的一项核心任务，在机器人操作、增强现实和场景理解中有着广泛的应用。然而，现有的主流方法面临严峻的通用性、速度和输入要求限制，使得它们难以应对现实世界中“未知”或“未见”的物体。
当前的方法主要可分为三类： 1. 基于模型的方法：需要物体精确的CAD（计算机辅助设计）模型。这类方法通过“渲染-比对”策略进行姿态搜索，但对未见物体获取CAD模型成本高昂。 2. 基于多视图的方法：依赖同一物体的多个（通常为8-200个）参考图像，通过运动恢复结构（SfM）等方法间接重建物体的三维信息。当参考视图稀疏时，性能会急剧下降。 3. 单视图方法：仅需单张参考图像，但通常依赖于两幅图像间的特征点匹配。这类方法在处理无纹理物体、遮挡以及大视角变化时非常脆弱，鲁棒性差。
因此，研究团队的核心目标是：开发一种仅需单个RGB-D参考视图，无需CAD模型、无需多视图数据、也无需特定类别训练，就能估计任意未知物体6D姿态的方法。这将极大降低姿态估计的门槛，提升其在开放世界应用中的实用性。
二、研究方法：One2any框架One2any将未见物体的姿态估计重构为一个条件姿态生成问题。其核心思想是一个编码-解码流程：首先从一个参考视图编码出包含物体形状、朝向和纹理的全面表示；然后，给定一个查询视图，解码器利用该表示预测一个中间几何表示，最终通过闭式解算得相对姿态。
1. 核心概念：参考物体坐标受归一化物体坐标空间（Normalized Object Coordinate Space, NOCS）的启发，作者提出了参考物体坐标（Reference Object Coordinate, ROC） 这一关键概念。与NOCS将所有物体对齐到一个固定的“规范”坐标系不同，ROC将物体坐标定义在参考图像的相机坐标系下，并通过一个缩放平移矩阵S归一化到一个标准空间。这样，ROC仅依赖于参考帧，避免了为不同类别定义统一规范帧的困难。
对于查询图像，其ROC的真实值可以通过已知的相对姿态 [R|t]，将查询视图下的物体点云变换到参考相机坐标系下，再应用相同的归一化矩阵S得到。这个ROC图是一个与图像尺寸对应的2D映射，每个像素的RGB值编码了该点在参考相机空间下的归一化3D坐标。
2. 网络架构与工作流程整个模型包含两个主要分支：参考物体编码器（ROE）和物体姿态解码器（OPD）。其工作流程如下图所示（描述性总结）： * 输入：一张参考RGB-D图像（含物体掩码）和一张查询RGB图像。 * 步骤一：生成参考物体姿态嵌入（ROPE） * 模块：参考物体编码器（ROE）。这是一个包含卷积层和残差连接的轻量级网络。 * 输入：参考RGB图像、参考ROC图（由参考深度和掩码通过公式计算得到）、物体掩码。 * 过程：ROE将这三个通道的信息融合，编码成一个紧凑的潜在向量，即参考物体姿态嵌入（Reference Object Pose Embedding, ROPE）。该嵌入旨在捕获物体的纹理、几何形状以及其在参考视图中的初始姿态先验。 * 步骤二：解码查询图像的ROC图 * 模块：物体姿态解码器（OPD）。该模块基于一个预训练的VQ-VAE模型和U-Net架构构建。 * 过程： 1. 使用预训练的VQ-VAE编码器提取查询RGB图像的特征图。 2. 将上一步得到的ROPE嵌入通过交叉注意力（Cross-Attention） 机制注入到U-Net的各个层级中。具体来说，在U-Net的每个交叉注意力层，查询特征作为“Query”，而来自ROPE的嵌入作为“Key”和“Value”，使得解码过程能够被参考物体的信息有效地条件化。 3. U-Net解码器整合这些条件化特征，逐步上采样，最终输出预测的查询ROC图。 * 步骤三：从ROC图计算6D姿态 * 过程：得到预测的ROC图后，结合查询图像的深度信息和掩码，可以恢复出查询物体在参考相机坐标系下的预测3D点云。具体做法是，对ROC图应用逆归一化变换 S⁻¹。 * 算法：最后，使用Kabsch-Umeyama算法（一种最小二乘刚体变换求解算法）计算查询点云（原始坐标系）与预测的参考坐标系点云之间的最优旋转R和平移t，即为所求的相对6D姿态。 * 训练与推理优化： * 训练损失：使用平滑L1损失直接监督预测的ROC图与真实ROC图之间的差异，仅在物体掩码区域内计算损失。 * 推理加速：为了达到实时速度，在推理时完全绕开了耗时的扩散采样过程，仅以确定性的前馈方式运行U-Net，显著提升了效率。
三、实验结果与分析研究团队在多个标准基准数据集上进行了广泛的实验，包括Real275、Toyota-Light、YCB-Video（遮挡场景）、LINEMOD（大视角变化）等，以评估one2any的泛化能力、鲁棒性和速度。
1. 在真实世界未知物体上的性能在Real275和Toyota-Light数据集上，one2any在仅使用单视图参考的条件下，在平均召回率（AR）和ADD-0.1d等关键指标上均显著超越了所有其他单视图方法（如Oryon、ObjectMatch），证明了其卓越的泛化能力。
2. 在遮挡场景下的性能在极具挑战性的遮挡YCB-Video数据集上，one2any的表现尤为突出。它不仅大幅领先于其他单视图方法（Oryon因找不到可靠匹配而失败，NOPE在参考视图被遮挡时预测不准），甚至超越了大多数需要多视图参考的方法（如FS6D），仅略逊于使用16个带真值姿态视图来生成高质量CAD模型的FoundationPose。这表明one2any的ROPE嵌入和ROC预测机制对遮挡具有极强的鲁棒性。
3. 在大视角变化下的性能在LINEMOD数据集上，相机绕物体旋转近360度。当仅使用第一帧作为参考时，基于特征匹配的方法（Oryon）在无纹理物体上完全失效。One2any则能够稳定地预测姿态，在一些物体上甚至达到了与多视图方法竞争的性能，显示了其应对大视角差异的能力。
4. 姿态跟踪性能在YCB-Video的完整视频序列上进行姿态跟踪测试（仅用第一帧初始化，后续不再更新参考），one2any取得了与专门设计的基于CAD模型的跟踪方法（如ICG）相媲美的结果，并且显著优于仅用单视图生成CAD模型进行跟踪的FoundationPose。结合其极快的推理速度，证明了其在动态场景中的应用潜力。
5. 运行时间分析One2any采用前馈式编码-解码架构，无需在线渲染、特征匹配搜索或复杂的优化步骤。在NVIDIA RTX 4090 GPU上，其单帧处理时间仅需0.09秒，比基于CAD渲染比对的方法（如Megapose, Gigapose）快一个数量级以上，也比基于匹配的方法（Oryon: 0.9秒）快约10倍，实现了接近实时的性能。
6. 消融实验消融研究验证了各个设计选择的必要性： * ROC表示的有效性：将预测ROC图的解码器替换为直接预测旋转和平移的回归头，各项指标大幅下降，证明了ROC作为中间表示的优越性。 * 参考输入的选择：实验表明，同时包含RGB（纹理）和ROC（几何）的参考输入能获得最佳性能。仅使用RGB或深度信息效果较差，仅使用ROC则缺失了重要的纹理线索。 * 查询特征提取器：对比VQ-VAE和DINOv2特征，两者性能相近，说明框架对不同的特征骨干具有兼容性。 * 查询图像中的深度：在查询分支额外加入深度信息反而会降低性能，可能是因为预训练的VQ-VAE RGB特征已足够有效，额外的深度信息可能引入冗余或冲突。
四、结论与价值本研究表明，one2any成功地实现了一种高效、鲁棒且通用的6D物体姿态估计方法。其核心贡献在于： * 提出了一个新颖的编码-解码框架，将姿态估计转化为条件生成问题，绕过了对显式3D模型、多视图数据或脆弱特征匹配的依赖。 * 引入了参考物体坐标（ROC）和参考物体姿态嵌入（ROPE） 这两个关键概念，构建了一个动态适应参考视图的对象空间，为从单视图学习泛化性强的物体表示提供了有效途径。 * 在精度、速度和鲁棒性之间取得了卓越的平衡。实验证明，即使只有一个参考视图，one2any在多个挑战性场景下的性能可与需要多视图或CAD模型的方法相媲美，同时计算开销极低。
五、研究亮点开创性的问题设定：专注于“单参考视图-任意未知物体”这一极具实用价值但挑战性极高的设定，降低了姿态估计的应用门槛。
方法论的创新：将扩散模型思想与姿态估计相结合，通过条件化生成和ROC中间表示，提供了一条解决稀疏视图下姿态估计问题的新路径。
卓越的综合性能：在保持接近实时推理速度的前提下，在遮挡、大视角变化、无纹理物体等多种困难场景下均展现出领先的精度和鲁棒性，泛化能力强大。
详细的实验验证：不仅在多个标准数据集上进行了全面评估，还包含了姿态跟踪任务和深入的消融研究，充分论证了方法的各个组成部分及其有效性。
六、其他价值该工作为后续研究开辟了多个方向：例如，如何进一步利用大规模预训练视觉基础模型来增强ROPE的编码能力；如何将框架扩展到更加极端的稀疏输入（如仅有RGB而无深度）；以及如何应用于机器人抓取、交互式AR等实时任务中。论文代码已开源，便于社区复现和进一步发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问