ORB-SLAM3：用于视觉、视觉-惯性及多地图SLAM的精确开源库

分享自：
ORB-SLAM3：用于视觉、视觉-惯性及多地图SLAM的精确开源库

工程学
机械
期刊:IEEE Transactions on RoboticsDOI:10.1109/TRO.2021.3075644
【点击此处】阅读全文、收藏及针对性提问
关于ORB-SLAM3：一个精确的视觉、视觉-惯性及多地图SLAM开源库的学术研究报告
一、 研究团队与发表信息
本研究的主要作者为Carlos Campos, Richard Elvira, Juan J. Gómez Rodríguez, José M. M. Montiel 以及 Juan D. Tardós，他们均来自西班牙萨拉戈萨大学的Aragón工程研究所（Instituto de Investigación en Ingeniería de Aragón, I3A）。该项研究成果以论文形式发表，已被《IEEE Transactions on Robotics》期刊接收，并于2021年正式在线发表（DOI: 10.1109/TRO.2021.3075644）。
二、 学术背景与研究目标
本研究属于机器人学与计算机视觉交叉领域的核心方向——同步定位与地图构建（Simultaneous Localization and Mapping, SLAM）。SLAM旨在使移动智能体（如机器人、无人机、AR/VR设备）能够在未知环境中，仅依靠自身传感器实时构建环境地图并同时确定自身在地图中的位置。
尽管过去二十年视觉SLAM和视觉里程计（Visual Odometry, VO）领域取得了显著进展，出现了许多优秀的系统，但在准确性、鲁棒性和通用性方面仍存在挑战。具体而言，现有系统在处理不同类型传感器（单目、双目、RGB-D、鱼眼镜头）、不同传感器融合（特别是视觉-惯性），以及长期运行和地图复用（多会话SLAM）时，往往存在局限。例如，许多视觉-惯性系统初始化缓慢或不够精确；大多数系统缺乏有效利用中长期数据关联的能力，导致在重复访问区域无法实现零漂移；此外，当系统在长时间视觉信息匮乏的情况下“迷失”时，缺乏优雅的恢复和地图合并机制。
在此背景下，本研究旨在解决上述问题，其核心目标是开发一个统一、精确且鲁棒的开源SLAM库。具体目标包括： 1. 构建一个能够无缝支持单目、双目、RGB-D相机，结合针孔和鱼眼模型，并集成惯性测量单元（IMU）的SLAM系统。 2. 提出一种基于最大后验概率（Maximum a Posteriori, MAP）估计的、快速且精确的视觉-惯性紧耦合初始化方法。 3. 设计一个新颖的、具有更高召回率（Recall）的地点识别方法，以改善回环检测和地图合并。 4. 实现一个完整的多地图系统（Atlas），使系统能够在跟踪丢失时创建新地图，并在重访时无缝合并，从而实现稳健的增量式多会话SLAM。 5. 将系统设计为相机模型无关，便于未来扩展。
三、 详细工作流程与方法
本研究的工作流程核心是ORB-SLAM3系统，它是在ORB-SLAM2和ORB-SLAM-VI基础上的全面扩展与创新。系统架构包含三个并行运行的线程（跟踪、局部建图、回环与地图合并）以及一个核心的多地图表示（Atlas）。
1. 系统概览与多地图（Atlas）表示： 系统维护一个由多个不连续地图组成的集合，称为“Atlas”。其中一个是“活动地图”，跟踪和建图线程在此地图上操作。当跟踪长时间丢失且重定位失败时，系统会将当前活动地图存储为非活动状态，并初始化一个新的活动地图。Atlas中的所有关键帧共享一个统一的DBoW2词袋数据库，用于支持跨地图的地点识别。
2. 相机模型抽象化： 为了使SLAM流程与相机模型解耦，ORB-SLAM3将相机相关的投影、反投影和雅可比计算等函数抽象为独立的模块。这使得系统可以轻松支持不同的镜头模型，论文中提供了针孔模型和Kannala-Brandt鱼眼模型的实现。这种设计使得系统能够直接处理原始（非校正）图像，特别是对于大视场角的鱼眼镜头，避免了图像校正带来的信息损失或畸变问题。
3. 视觉-惯性SLAM流程： 这是本研究的核心贡献之一，主要包含初始化、跟踪和建图三个关键部分。
A. 紧耦合视觉-惯性状态估计： 系统状态向量包括身体位姿、速度以及IMU的陀螺仪和加速度计偏置。通过预积分技术处理连续图像帧之间的IMU测量值，形成预积分测量项及其协方差。系统的优化问题结合了视觉重投影误差和IMU预积分误差，构成一个基于关键帧的最大后验概率估计问题。
B. 快速精确的IMU初始化（创新方法）： 传统视觉-惯性初始化方法要么忽略传感器不确定性，要么收敛缓慢。本研究提出了一种全新的、完全基于MAP估计的三步初始化方法：
第一步：纯视觉MAP估计。 运行纯单目SLAM约2秒（4Hz关键帧），构建一个尺度未知但精确的视觉地图和相机轨迹。
第二步：纯惯性MAP估计。 将上一步得到的尺度未知轨迹作为观测，与IMU预积分测量一起，构建一个仅包含惯性变量（尺度因子、重力方向、IMU偏置、速度）的优化问题。通过求解此问题，可以精确地恢复出地图的真实尺度、重力方向以及IMU偏置。该方法的关键在于显式地将尺度作为优化变量，并正确考虑了视觉和惯性测量的不确定性。
第三步：视觉-惯性MAP估计。 在获得良好的初始值后，执行一个联合视觉-惯性BA（Bundle Adjustment）进行进一步优化。 实验表明，该方法在2秒内即可将尺度误差收敛至5%以内，15秒内达到1%的尺度误差，速度远超之前的方法（如ORB-SLAM-VI需要15秒，VI-DSO需要20-30秒）。对于双目-惯性情况，由于尺度已知，初始化过程更加简单和快速。
C. 跟踪与建图：
跟踪线程： 处理传感器数据，通过最小化当前帧与活动地图特征点之间的重投影误差（视觉-惯性模式下还包括IMU残差）来实时估计当前帧的位姿、速度（惯性模式下）和偏置。
局部建图线程： 向活动地图添加新的关键帧和地图点，移除冗余元素，并在一个局部关键帧窗口内执行视觉或视觉-惯性BA来优化地图。在惯性模式下，该线程还负责执行IMU初始化和后续的参数优化。
4. 改进的地点识别与地图合并/回环闭合： 这是另一项核心创新，旨在实现高召回率的长期和多地图数据关联。
A. 改进的地点识别算法： 传统方法（如DBoW2）为了追求高精度，通常需要“时间一致性”检查（连续三帧识别到同一地点），这牺牲了召回率并导致延迟。ORB-SLAM3提出了一种新流程：
为新的活动关键帧，从Atlas数据库检索多个相似的关键帧候选。
对每个候选，定义一个包含该候选及其共视关键帧的“局部窗口”。
首先进行几何验证：使用RANSAC和Horn算法计算当前关键帧与候选局部窗口之间的Sim(3)或SE(3)变换矩阵。
通过引导匹配和非线性优化细化变换矩阵。
然后进行局部一致性验证：在活动地图中寻找与当前关键帧共视的另外两个关键帧，验证它们与候选局部窗口的匹配关系。验证信息通常已存在于地图中，无需等待新的关键帧，从而大幅提高了召回率。
在视觉-惯性模式下，若地图已成熟，还会验证估计变换中的俯仰和横滚角与重力方向的一致性。
B. 地图合并与回环闭合： 当地点识别成功匹配到不同地图中的关键帧时，触发地图合并；若匹配发生在同一地图内，则触发回环闭合。以地图合并为例：
焊接窗口组装： 将活动地图中的匹配关键帧及其邻域，以及被匹配地图中的对应局部窗口，组合成一个“焊接窗口”。
地图融合： 将活动地图的要素变换到被匹配地图的坐标系下，融合两个地图，并搜索和合并重复的地图点，更新共视图和本质图。
焊接窗口BA： 对焊接窗口内的所有关键帧和地图点执行一次局部BA。此步骤能快速整合信息，使跟踪线程能立即重用先前地图。
本质图优化： 对整个合并后的地图执行位姿图优化，将校正从焊接窗口传播到整个地图。 对于视觉-惯性地图合并，流程类似，但在BA中会加入IMU预积分约束。回环闭合的流程与地图合并高度相似。
四、 主要实验结果与分析
研究在公开数据集EuRoC和TUM-VI上进行了全面评估，涵盖了单会话和多会话场景，并比较了单目、双目、单目-惯性、双目-惯性四种传感器配置。
1. 单会话SLAM在EuRoC数据集上的表现： ORB-SLAM3在所有传感器配置下均取得了比现有最先进系统更高的精度。 * 纯视觉配置： 由于改进的地点识别算法提供了更早的回环闭合和更多的中期数据关联，其精度优于ORB-SLAM2。 * 视觉-惯性配置： 展现了巨大的优势。单目-惯性系统的精度是MSCKF、OKVIS、ROVIO的5-10倍，是VI-DSO和VINS-Mono的两倍以上。双目-惯性系统的精度是Kimera和VINS-Fusion的3-4倍。这直接证明了充分利用短、中、长期数据关联以及快速精确初始化的有效性。 * 鲁棒性分析： 通过展示十次运行结果的误差分布（箱形图/颜色方块），论文证实了ORB-SLAM3具有高鲁棒性和低方差。特别是视觉-惯性系统在最具挑战性的序列（如V2_03）上也能稳定运行，而许多其他系统在此序列上失败或表现不稳定。惯性信息的集成不仅提高了精度，还极大地增强了系统的鲁棒性。
2. 在TUM-VI数据集上的视觉-惯性SLAM表现： 该数据集包含更具挑战性的鱼眼相机和手持剧烈运动序列。 * ORB-SLAM3在单目-惯性和双目-惯性配置下均取得了最佳的整体性能。 * 在小的室内环境（room序列）中，由于系统能持续重访和重用已建图区域，误差低于10厘米，展现了其核心优势。 * 在长距离户外序列中，尽管由于远处特征点稀少导致惯性参数（如尺度）可能漂移，产生较大误差（10-70米），但ORB-SLAM3仍然是表现最好的系统。 * 在近乎无纹理的“滑梯”序列中，纯视觉系统会失效，但视觉-惯性系统仍能处理整个序列，证明了惯性导航在极端条件下的价值。 * 特别地，在代表典型AR/VR场景的“room”序列（全程有真值）中，双目-惯性SLAM实现了平均9毫米的精度，成为此类应用的绝佳选择。
3. 多会话SLAM实验： * 在EuRoC数据集上，顺序处理同一环境下的多个会话序列。ORB-SLAM3在所有传感器配置下的多会话精度均显著优于已发表的CCM-SLAM（单目）和VINS-Mono（单目-惯性）结果。与VINS-Mono相比，单会话精度提升2.6倍，多会话精度提升3.2倍，凸显了其地图合并操作的优越性。 * 在TUM-VI数据集上的多会话实验表明，通过将不同序列的地图合并，可以显著减少单会话运行时的累积漂移，构建出全局一致且高精度的地图。
4. 运行时间分析： 系统在标准CPU上能够实时运行（30-40帧/秒，3-6关键帧/秒）。惯性部分在跟踪线程中耗时可忽略。新颖的地点识别算法每关键帧仅需约10毫秒。地图合并和回环闭合操作通常在1秒内完成（仅位姿图优化），若执行全局BA则需数秒，但由于在独立线程运行，不影响系统实时性。
五、 研究结论与价值
本研究成功开发并发布了ORB-SLAM3，这是迄今为止最完整、最精确的开源视觉、视觉-惯性及多地图SLAM库。其主要贡献不仅在于集成的库本身，更在于其创新的快速精确IMU初始化方法，以及基于改进召回率地点识别的多会话地图合并功能。
实验结果表明，ORB-SLAM3是第一个能够有效利用短期、中期、长期及多地图数据关联的视觉和视觉-惯性SLAM系统，达到了现有系统难以企及的精度水平。研究证明，充分利用所有类型的数据关联，其带来的优势超过了其他技术选择（如使用直接法而非特征点法，或在局部BA中使用边缘化而非固定外部关键帧集）。
科学价值与应用价值： * 科学价值： 为SLAM领域提供了新的技术标杆，系统性地解决了视觉-惯性初始化、长期鲁棒性、多地图融合等关键问题，其方法论（如基于MAP的初始化、高召回率地点识别）对后续研究具有重要启发意义。 * 应用价值： 为机器人、无人机、自动驾驶、增强现实（AR）/虚拟现实（VR）等需要高精度定位与建图的应用提供了一个强大、可靠且通用的工具。特别是其双目-惯性配置，在AR/VR场景中达到了厘米级甚至毫米级精度，极具应用潜力。
六、 研究亮点
首个全面的多地图SLAM系统： 能够统一处理视觉、视觉-惯性、单目、双目、RGB-D、针孔和鱼眼模型，并实现无缝的多会话建图与合并。
快速精确的视觉-惯性初始化： 提出了一种全新的、完全基于MAP估计的三步初始化方法，在速度和精度上显著优于现有方法。
高召回率的地点识别： 通过改变验证顺序（先几何验证，后局部一致性验证），大幅提升了回环检测和地图合并的召回率，从而增强了系统的精度和鲁棒性。
卓越的性能表现： 在多个权威公开数据集上的实验证明，ORB-SLAM3在精度和鲁棒性上全面超越了当前最先进的SLAM/VO系统。
开源贡献： 作者公开了全部源代码，极大地促进了相关领域的研究和应用发展。
七、 其他有价值的内容
论文还指出了系统当前的主要失效情况：低纹理环境。特征描述子匹配在长期和多地图数据关联中表现优异，但在跟踪鲁棒性上可能不如基于光度信息的直接法（如Lucas-Kanade光流）。作者提出，未来一个有趣的研究方向是开发适用于所有四种数据关联问题的光度技术。他们目前正在探索将此类技术应用于人体内窥镜图像的地图构建中。这为SLAM技术的未来发展指明了潜在方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问