分享自:

POS3R:利用3D基础模型实现未见物体六维姿态估计的简易方法

期刊:IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

关于POS3R:一种利用3D基础模型实现无训练、未见物体6D位姿估计方法的学术研究报告

一、 主要作者、机构及发表信息

本研究由Weijian Deng, Dylan Campbell, Chunyi Sun, Jiahao Zhang, Shubham Kanitkar, Matthew E. Shaffer 和 Stephen Gould 共同完成。研究团队主要来自两所机构:澳大利亚国立大学(Australian National University)和Rios Intelligent Machines。本研究是一篇计算机视觉领域的学术论文,作为CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)会议的开放获取版本发表。CVPR是计算机视觉与模式识别领域的顶级国际会议。

二、 研究背景与目标

本研究隶属于计算机视觉领域,具体聚焦于六维位姿估计(6D pose estimation)任务。该任务旨在确定物体相对于相机的精确三维位置(平移)和三维方向(旋转),是机器人抓取与操作、增强现实、自动驾驶等应用的关键技术。传统的位姿估计方法多为基于学习的方法,通常需要针对特定物体或类别进行大量带标注数据的训练,虽然精度高但泛化能力差,难以应用于未见过的物体或新类别。

近年来,基础模型(Foundation Models)的兴起为减少任务特定训练需求、提升模型泛化能力提供了新途径。然而,当前最先进的6D位姿估计器要么仍需进一步的位姿监督训练,要么忽略了可从3D基础模型中获得的进展。后者被认为是一个错失的机会,因为3D基础模型天生具备预测3D一致特征(3D-consistent features)的能力,这对于需要处理物体三维空间变化的位姿估计任务具有显著优势。具体而言,位姿估计需要处理面内旋转(in-plane rotation,物体绕相机光轴旋转)和面外旋转(out-of-plane rotation,物体在三维空间中倾斜或转向,导致外观发生透视变化)。现有基于2D基础模型(如DINOv2)的方法通过数据增强能较好处理面内旋转,但其2D本质限制了其对导致外观剧烈变化的面外旋转的鲁棒性。相比之下,3D基础模型(如MAST3R)专为在不同视角下生成3D一致特征而设计,即使在面外旋转下也能实现可靠的特征对齐。

基于上述背景,本研究旨在填补这一空白,提出了一种名为POS3R的新方法。其主要目标是:开发一种无需任何额外训练、仅需单张RGB图像输入,即可估计任何未见物体6D位姿的方法。该方法的核心思想是充分利用3D重建基础模型MAST3R的能力,简化流程,提升对复杂旋转的鲁棒性,并在标准基准测试中取得有竞争力的性能。

三、 研究详细流程与方法

POS3R的研究流程遵循了标准的、基于CAD模型的未见物体位姿估计管道,但所有组件均为冻结状态,无需任何物体特定或任务特定的训练。整个流程可分为两个主要部分:物体检测和位姿估计。其中,位姿估计是核心创新点,包含三个关键步骤:模板渲染、图像匹配和位姿拟合。

1. 物体检测: 研究采用CNOS作为默认的物体检测与分割方法。CNOS是BOP挑战赛中用于分割未见物体的基准方法,它仅需物体的3D模型进行“登记”,不依赖额外的数据或针对特定物体的训练。给定一张RGB图像,CNOS负责生成每个目标实例的分割掩码和物体ID,从而在图像中定位出目标物体区域(即目标分割块)。

2. 位姿估计: 这是POS3R方法的核心。给定一个带纹理的物体CAD模型,其位姿估计流程如下:

  • 步骤一:模板渲染 首先,从物体的CAD模型渲染出一组模板图像。渲染过程使用标准光栅化方法,背景为黑色,光照固定。渲染相机的内参与测试相机相同,模板尺寸与测试图像匹配,且物体始终位于模板中心。 核心创新在于模板配置策略:

    • 捕获面外旋转:研究没有渲染成百上千个视角,而是采用了高效策略。将8个虚拟相机放置在以CAD模型为中心的立方体的8个顶点上,渲染出8个基础模板。这8个视角有效地覆盖了主要的空间方向,用以捕获面外旋转。
    • 捕获面内旋转:为解决绕主轴旋转带来的模糊性,对上述每一个基础模板,再绕相机主轴(通常也是物体主轴)进行旋转增广。研究中设置了5个均匀间隔的旋转角度(覆盖360度),为每个基础模板生成5个旋转变体。
    • 因此,每个物体总共生成 8(基础)x 5(旋转) = 40个模板。这相比需要数百个模板的现有方法(如Megapose)大幅减少了计算量。同时,在渲染每个模板时,会记录每个像素在CAD模型3D坐标空间中所对应的3D点位置,形成3D坐标图,为后续建立2D-3D对应关系奠定基础。
  • 步骤二:图像匹配与模板选择 此步骤的目标是在测试图像中的目标分割块与40个渲染模板之间建立准确的2D-2D像素对应关系,并从中选出最匹配的模板。

    • 匹配器:研究的关键是采用了3D基础模型MAST3R作为图像匹配器。MAST3R是一个用于联合局部3D重建和图像间像素级匹配的模型。它通过一个孪生视觉变换器编码器提取图像特征,再通过解码器生成像素级的3D点图和局部特征图。利用这些局部特征,通过FASTNN算法高效地建立两幅图像之间的互惠匹配点对
    • 基于相似度的模板选择:研究摒弃了需要额外训练的选择网络,提出了一种简单、无需训练的选择策略。对于目标分割块与每一个模板变体,通过MAST3R获得一组互惠匹配点对以及每个匹配点对应的局部特征向量。计算每一对匹配特征的点积作为相似度,然后将所有匹配对的相似度求和,得到该模板与目标分割块的整体相似度分数。最终,选择相似度分数最高的模板作为最优匹配模板。这个过程通过密集、高质量的对应关系直接评估匹配质量,无需复杂网络。
  • 步骤三:位姿拟合 选定最优模板后,利用之前渲染时保存的3D坐标图,可以将匹配的2D像素点(来自目标图像)与对应的3D点(来自模板的3D坐标图)关联起来,形成一组2D-3D对应关系

    • 求解位姿:基于这组2D-3D对应关系,将其转化为一个透视n点问题,并通过EPnP算法结合RANSAC策略来求解最终的6D位姿(旋转矩阵R和平移向量t)。RANSAC用于迭代地从对应关系中随机选取子集生成位姿假设,并评估每个假设的内点数量(即重投影误差小于阈值ε的对应点数量),最终选择内点数量最多的假设作为粗略的位姿估计结果。

四、 主要实验结果与分析

研究在BOP挑战赛的七个核心数据集上对POS3R进行了全面评估,并与当前最先进的方法进行了比较,包括无需训练的方法(如FoundPose, ZS6D)和基于训练的方法(如MegaPose, GigaPose)。评估指标采用BOP标准协议的平均召回率。

1. 粗略位姿估计性能(无细化): 如表1所示,在无需任何任务特定训练的“粗略估计”类别中,POS3R取得了卓越的性能。 * 整体领先:POS3R在TUD-L、HB和YCB-V等多个数据集上取得了最高的平均召回率,其跨数据集的平均召回率达到了39.5,显著优于其他无需训练的方法(如FoundPose的37.2)。 * 效率与性能平衡:POS3R的运行时仅为1.4秒,在保持高精度的同时展现了出色的计算效率。这证明了其采用的40模板策略以及基于相似度的简单选择机制的有效性。 * 局限性:在遮挡严重的LM-O数据集上,POS3R表现不佳。分析认为,严重遮挡会破坏初始的图像匹配过程,导致位姿估计不准确。这指明了未来改进的一个方向,即增强对遮挡的鲁棒性。

2. 结合位姿细化的性能: 为了展示POS3R的适应性,研究将其与MegaPose的位姿细化器结合。结果表明,即使POS3R本身并非为细化设计,但其提供的初始位姿经过细化后,能达到与顶级细化方法(如GigaPose+细化)相媲美的性能(平均召回率57.3 vs 57.9)。这证明了POS3R可以作为高性能、可扩展的粗估计器,无缝集成到现有的渲染-比较细化流程中。

3. 组件分析与消融实验: 研究通过一系列消融实验验证了各个设计选择的重要性。 * 使用预测3D模型:在实际应用中,高精度CAD模型可能不易获得。研究测试了使用Wonder3D从单张参考图像预测的3D模型来代替真实CAD模型。结果显示,POS3R在使用预测模型时,性能仍然优于MegaPose和GigaPose,证明了其对3D模型质量的鲁棒性。 * 模板选择技术对比:实验比较了基于相似度、基于内点数量和基于MAST3R置信度图三种选择策略。结果表明,基于相似度的选择策略效果最好,为研究的设计提供了直接证据。 * 面内旋转与3D一致性的影响:关键消融实验表明:(1)移除面内旋转增广(仅使用8个基础模板)会导致性能大幅下降,这凸显了处理面内旋转对提升对应关系质量和最终精度的重要性。(2)将3D基础模型MAST3R替换为2D基础模型DINOv2(保持40模板流程不变)会导致所有数据集的性能显著降低。同样,替换为另一种密集图像匹配器ROMA也导致性能下降。这强有力地证明了MAST3R所具备的3D一致特征是POS3R高性能的关键。

五、 研究结论与价值

本研究提出并验证了POS3R,一个完全无需训练、仅需RGB输入的未见物体6D位姿估计框架。通过创新性地利用3D基础模型MAST3R,POS3R能够生成对视角变化鲁棒的3D一致特征,从而有效处理面内和面外旋转。该方法仅需从八个立方体顶点视角结合可控旋转变化生成的40个模板,即可实现高效且准确的位姿估计。

科学价值:POS3R为“无需训练”的6D位姿估计研究树立了一个强大的基准。它明确揭示了3D基础模型在此类几何感知任务中相比2D基础模型的潜在优势,为未来研究指明了利用3D先验知识的方向。其简洁高效的流程设计(少量模板、简单选择策略)也为该领域的算法工程提供了新思路。

应用价值:POS3R的无需训练特性使其特别适合动态、数据稀缺或需要快速部署新物体的场景,例如敏捷机器人、物流分拣或交互式增强现实应用。它能够快速“登记”一个新物体的CAD模型后立即进行位姿估计,极大地提升了系统的灵活性和适应性。同时,它与现有细化技术的良好兼容性,使其能够轻松集成到对精度要求极高的工业级应用中。

六、 研究亮点

  1. 首创性应用:首次系统性地探索并验证了3D重建基础模型在完全无需训练的、基于CAD模型的未见物体6D位姿估计任务中的有效性和优越性。
  2. 方法新颖性:提出了一种高效的模板配置策略(立方体顶点+面内旋转)和一种无需训练的、基于匹配相似度的模板选择机制,在保证性能的同时大幅降低了计算复杂度。
  3. 性能卓越:在标准BOP基准测试中,作为无需训练的方法,在粗略位姿估计方面取得了领先或极具竞争力的性能,证明了其方法的有效性。
  4. 强泛化与实用性:方法设计简洁,不依赖大量数据训练,易于实现和部署,且与下游细化模块兼容性好,兼具学术创新价值与实际应用潜力。

七、 其他有价值内容

研究的定性结果(图5)直观展示了POS3R在多种挑战性场景下的能力,包括处理杂乱场景、多物体、纹理稀少物体等。同时也坦率地指出了其在重度遮挡情况下的局限性,为后续研究提供了清晰的改进目标。研究者建议未来可探索结合对比学习(如GigaPose所用)或利用多视图信息来提升遮挡下的鲁棒性,这为领域发展提供了有价值的见解。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com