基于RGB-D图像的6自由度目标姿态估计残差点密集网络

分享自：
基于RGB-D图像的6自由度目标姿态估计残差点密集网络

期刊:CVPR Workshop
论文报告：rdpn6d: residual-based dense point-wise network for 6dof object pose estimation based on rgb-d images作者与研究机构本文的主要作者为 Zong-Wei Hong、Yen-Yang Hung 和 Chu-Song Chen，作者隶属于台湾大学（National Taiwan University），其相关联系信息为：{r10922190, r11922a18}@g.ntu.edu.tw, chusong@csie.ntu.edu.tw。此研究发表于计算机视觉领域的著名会议 CVPR Workshop 上，同时此会议由 Computer Vision Foundation 提供开放获取版本。代码也已公开发布在 GitHub。
研究背景学术背景与意义
 RGB-D 图像中基于6自由度（6DoF）位姿估计是计算机视觉中的基本问题，对增强现实、3D建模、自动驾驶、机器人控制等多个领域至关重要。然而，这类任务的复杂性来自遮挡、纹理少的物体、噪声、环境光线多变以及视角变化等多重因素，这使得现有的方法在许多应用场景下难以获得高精度的估计结果。
传统方法依赖于人工设计特征来进行2D-3D的对应点匹配，但深度学习尤其是卷积神经网络（CNN）和基于Transformer的架构在计算机视觉中的发展，推动了位姿估计的自动化和可靠性。然而，基于深度学习的主流方法通常分为两种：一种是利用稀疏3D关键点的匹配，另一种则是直接通过特征嵌入回归物体位姿。这些方法在某些复杂条件下（如遮挡）表现不足，尤其是对纹理缺失的物体和镜面对称物体的处理。此外，直接回归方法由于缺乏解释性，会对模型精度造成限制。
为了克服上述限制，研究者们提出了利用RGB-D图像结合稠密对应关系的6自由度位姿估计方法，其中包括稠密2D-3D和3D-3D像素级对应点。本文研究提出了一种创新性的残差表示与稠密点网络（Resiudal-Based Dense Point-Wise Network, 简称 RDPN），能够有效压缩输出空间，从而提高效率和准确性。
研究目标提出一种能够处理复杂和遮挡场景的6自由度位姿估计方法。
引入基于3D残差表示的新颖框架，适应大范围输出空间下的预测任务。
利用稠密对应关系提高估计精度，同时相比现有的方法减少计算开销。
研究方法与工作流程整体概述
 本文提出的 RDPN 方法基于两个核心概念：稠密对应关系与残差表示。网络结合 RGB-D 图像，通过调整相机内参矩阵，生成适合裁剪的深度图XYZ（camera xyz map）。接着，输入网络后，分别生成图像像素的粗粒度锚点和其对应的残差向量，以实现物体表面点的高效稠密预测。最终，通过基于稠密对应关系的Pose预测器（Pose Predictor）计算出物体位姿，包括旋转矩阵和位移向量。
具体步骤
 1. 裁剪和调整内参
 - 为了适应RGB-D输入图像的裁剪窗口，研究者提出通过调整相机的内参矩阵（camera intrinsic matrix）。原始内参矩阵 korg 经仿射矩阵变换后生成裁剪后的内参矩阵 kcrop。这一过程解决了训练与测试中因分布不一致导致的位姿分布非均匀问题。 - 摄像机点云（XYZ）映射也随裁剪进行实时调整，确保所有物体始终位于图像中心。
RGB-D输入与特征提取
提取 RGB 图像的局部纹理特征（frgb）和从深度信息派生的空间特征（fdepth）。
融合这两种特征，生成全局 RGB-D 融合表征（frgbd），随后通过解码器模块获取像素级的预测。
残差表示
在稠密对应图像中，每个像素的3D坐标被分解为两部分：粗粒度锚点（coarse anchors）和细粒度残差向量（residual vector）。
锚点选择通过采取基于最远点采样算法（Farthest Point Sampling, FPS）的方法，将物体的3D网格均匀划分为多个区域，每个区域对应一个锚点。
残差向量则计算锚点与实际点之间的偏差。此处理方法将大范围复杂输出空间映射为更窄的残差输出范围，提升了模型的学习效率和预测精度。
Pose预测
网络融合了2D-3D以及3D-3D稠密对应关系。在像平面上，利用 UV 表示图（iuv）完成2D-3D的匹配；同时，结合下采样后的深度图（icxyz64），实现3D-3D对应。
通过这些稠密对应点，位姿预测器直接推断物体在摄像头坐标系中的旋转矩阵（r）与平移向量（t），从而避免传统方法中使用RANSAC方法带来的计算消耗。
实验结果数据集与实验设置
 研究者在四个公开数据集上验证了方法的有效性： 1. LINEMOD：包括常见物体的RGB-D序列，场景遮挡轻微。 2. Occlusion LINEMOD：包含大量遮挡物体的测试图像。 3. YCB-Video：包含21个物体的RGB-D视频，具有遮挡与复杂光影。 4. MP6D：工业环境下的金属零件位姿估计数据集，难点包括高反射、纹理缺失和重遮挡。
主要发现
 1. 性能优越
 - 在 YCB-Video 和 MP6D 数据集的 ADD-S AUC 指标中，RDPN 方法对所有对象实现了准确性和鲁棒性的提升，相较state-of-the-art方法提高了1.7%。 - 对于 Occlusion LINEMOD 数据集，RDPN 方法尤其在遮挡场景中表现出色，显示了其对遮挡问题的敏感处理能力。
残差表示与稠密对应关系的效果
实验表明相对于直接回归方法，基于残差的预测显著提高了性能，特别是在复杂几何结构和对称物体的场景下。
稠密对应关系的加入更好地缓解了深度图像中的传感器噪声问题。
组件与参数分析
锚点数量的选择对整体性能存在明显影响，在32个锚点时效果最佳。
裁剪后的内参调整进一步提升了对应点投影的准确性。
研究意义学术价值
本研究提出的新型残差表示在位姿估计任务中，对解决空间范围大的输出预测问题具有创新性，能极大降低模型计算负担并提升准确性。
稠密对应关系显著提高了对复杂几何和遮挡场景的鲁棒性，特别适用于机器人、自动驾驶和增强现实等场景中需要高精度位姿估计的任务。
应用价值
随着RGB-D传感器成本下降，本文方法为基于深度学习解决实际工业场景提供了强有力的工具。
其高效的稠密对应方法尤其对工业零部件、纹理少的设备有较强适应能力。
研究亮点提出基于残差的稠密点网络（RDPN），大幅降低预测难度与计算复杂度。
方法在遮挡、对称物体与无纹理场景下表现优秀，并达到了多项数据集的领先表现。
提出了裁剪调整相机内参的机制，提高了训练集与测试集分布不一致场景下的模型鲁棒性。
结论本文提出了一种基于残差表示的稠密点网络（RDPN），在6DoF位姿估计领域具有较高准确性和优越性能，并广泛适用于遮挡、复杂纹理等任务挑战。未来工作将探索位姿预测与目标检测联合网络的研究方向，进一步提升处理效率，为复杂场景的智能感知奠定基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问