本文的主要作者为 Zong-Wei Hong、Yen-Yang Hung 和 Chu-Song Chen,作者隶属于台湾大学(National Taiwan University),其相关联系信息为:{r10922190, r11922a18}@g.ntu.edu.tw, chusong@csie.ntu.edu.tw。此研究发表于计算机视觉领域的著名会议 CVPR Workshop 上,同时此会议由 Computer Vision Foundation 提供开放获取版本。代码也已公开发布在 GitHub。
学术背景与意义
RGB-D 图像中基于6自由度(6DoF)位姿估计是计算机视觉中的基本问题,对增强现实、3D建模、自动驾驶、机器人控制等多个领域至关重要。然而,这类任务的复杂性来自遮挡、纹理少的物体、噪声、环境光线多变以及视角变化等多重因素,这使得现有的方法在许多应用场景下难以获得高精度的估计结果。
传统方法依赖于人工设计特征来进行2D-3D的对应点匹配,但深度学习尤其是卷积神经网络(CNN)和基于Transformer的架构在计算机视觉中的发展,推动了位姿估计的自动化和可靠性。然而,基于深度学习的主流方法通常分为两种:一种是利用稀疏3D关键点的匹配,另一种则是直接通过特征嵌入回归物体位姿。这些方法在某些复杂条件下(如遮挡)表现不足,尤其是对纹理缺失的物体和镜面对称物体的处理。此外,直接回归方法由于缺乏解释性,会对模型精度造成限制。
为了克服上述限制,研究者们提出了利用RGB-D图像结合稠密对应关系的6自由度位姿估计方法,其中包括稠密2D-3D和3D-3D像素级对应点。本文研究提出了一种创新性的残差表示与稠密点网络(Resiudal-Based Dense Point-Wise Network, 简称 RDPN),能够有效压缩输出空间,从而提高效率和准确性。
整体概述
本文提出的 RDPN 方法基于两个核心概念:稠密对应关系与残差表示。网络结合 RGB-D 图像,通过调整相机内参矩阵,生成适合裁剪的深度图XYZ(camera xyz map)。接着,输入网络后,分别生成图像像素的粗粒度锚点和其对应的残差向量,以实现物体表面点的高效稠密预测。最终,通过基于稠密对应关系的Pose预测器(Pose Predictor)计算出物体位姿,包括旋转矩阵和位移向量。
具体步骤
1. 裁剪和调整内参
- 为了适应RGB-D输入图像的裁剪窗口,研究者提出通过调整相机的内参矩阵(camera intrinsic matrix)。原始内参矩阵 korg 经仿射矩阵变换后生成裁剪后的内参矩阵 kcrop。这一过程解决了训练与测试中因分布不一致导致的位姿分布非均匀问题。 - 摄像机点云(XYZ)映射也随裁剪进行实时调整,确保所有物体始终位于图像中心。
RGB-D输入与特征提取
残差表示
Pose预测
数据集与实验设置
研究者在四个公开数据集上验证了方法的有效性: 1. LINEMOD:包括常见物体的RGB-D序列,场景遮挡轻微。 2. Occlusion LINEMOD:包含大量遮挡物体的测试图像。 3. YCB-Video:包含21个物体的RGB-D视频,具有遮挡与复杂光影。 4. MP6D:工业环境下的金属零件位姿估计数据集,难点包括高反射、纹理缺失和重遮挡。
主要发现
1. 性能优越
- 在 YCB-Video 和 MP6D 数据集的 ADD-S AUC 指标中,RDPN 方法对所有对象实现了准确性和鲁棒性的提升,相较state-of-the-art方法提高了1.7%。 - 对于 Occlusion LINEMOD 数据集,RDPN 方法尤其在遮挡场景中表现出色,显示了其对遮挡问题的敏感处理能力。
残差表示与稠密对应关系的效果
组件与参数分析
学术价值
应用价值
本文提出了一种基于残差表示的稠密点网络(RDPN),在6DoF位姿估计领域具有较高准确性和优越性能,并广泛适用于遮挡、复杂纹理等任务挑战。未来工作将探索位姿预测与目标检测联合网络的研究方向,进一步提升处理效率,为复杂场景的智能感知奠定基础。