ORB-SLAM3：精准的开源视觉、视觉惯性及多地图SLAM库

分享自：
ORB-SLAM3：精准的开源视觉、视觉惯性及多地图SLAM库

期刊:IEEE Transactions on RoboticsDOI:10.1109/tro.2021.3075644
这篇论文是属于类型a（单一原创研究报告）的文档，以下是根据文档内容生成的研究报告：
研究背景与发表信息《ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial, and Multimap SLAM》由Carlos Campos, Richard Elvira, Juan J. Gómez Rodríguez, José M. M. Montiel以及Juan D. Tardós等研究人员撰写并贡献。这项研究 发布于IEEE Transactions on Robotics（2021年12月，卷37，第6期）。研究由西班牙大学Universidad de Zaragoza的Instituto de Investigación en Ingeniería de Aragón (I3A)团队完成，资助来源包括西班牙政府和Aragon地区政府的多个科研计划。
研究的核心焦点是ORB-SLAM3，这是一个具有突破性意义的开源库，支持基于视觉（Visual）、视觉惯性（Visual-Inertial）及多地图（Multimap）的同时定位与建图（SLAM）。研究的目标在于实现更高准确性、更强鲁棒性的SLAM算法，解决现有方法在实用性和灵活性上的诸多局限。
学术背景与研究目标SLAM（Simultaneous Localization and Mapping，同时定位与建图）是机器人视觉和计算机视觉领域的核心研究课题，广泛应用于自动驾驶、虚拟现实（VR）、增强现实（AR）等场景。SLAM的目标是利用摄像头和其他传感器在未知环境中实时地构建地图，并定位移动设备在地图中的位置。视觉SLAM与视觉惯性SLAM技术在过去二十年中进展迅速，但仍存在以下挑战：
精度与鲁棒性的权衡问题：传统视觉SLAM算法受限于漂移累积误差（drift）和较低的外部扰动适应能力。
地图复用性：现有SLAM系统在长期场景中无法充分复用历史地图信息，尤其在失去追踪（tracking lost）或闭环检测（loop closing）处理时。
复合功能的欠缺：之前的系统很少能够同时支持单目、双目、RGB-D等多种摄像模式，或在地图构建的多倍重用（多地图）表现中显得力不从心。
ORB-SLAM2被认为是视觉SLAM领域的一个重要参考点，与传统方法相比，它首次全面整合了短期、中期及长期数据关联（data association）。在ORB-SLAM2的基础上，作者进一步提出ORB-SLAM3，其创新之处在于实现了： - 更快速和准确的IMU初始化； - 多地图系统（Multimap System）及改进的回环检测（loop closing）算法； - 对单目、双目、RGB-D以及鱼眼相机的通用支持。
研究的最终目标是构建一个在精度与鲁棒性上超过现有方法的开源SLAM解决方案，既适用于实时小规模室内场景，也能处理大规模复杂的室外环境。
研究方法与工作流程系统架构和研究工作流程的核心ORB-SLAM3的整体工作流程分为四大线程，分别负责追踪（tracking）、局部地图构建（local mapping）、回环检测与多地图融合（loop closing & map merging）和地图管理（Atlas）。每个线程的核心步骤如下：
追踪线程（Tracking Thread）：与现有SLAM系统一致，追踪线程处理每帧传感器数据，实时优化相机的位姿并决定是否插入新的关键帧（keyframe）。在视觉惯性模式中，还通过优化包括IMU偏置（bias）和速度的状态变量。尤其重要的是，当追踪失败时，系统将尝试通过Atlas在所有已存地图中重新定位（Relocalization）；若重定位失败，将开启新地图构建。
局部地图构建线程（Local Mapping Thread）：该模块实时优化活动地图，采用基于Bundle Adjustment（BA，束调整）的优化框架，整合观察帧的短期数据关联，同时初始化和优化IMU参数。
回环检测与多地图融合线程（Loop & Map Merging Thread）：通过改良的高召回率场景识别方法（place recognition），实现活动地图的闭环检测及与旧地图的无缝融合。融合过程包括通过投影匹配消除重复关键点，在本地窗口优化后进行图优化（Pose Graph Optimization），最终提高全局地图精度。
地图管理——Atlas：ORB-SLAM3引入新的Atlas模块以支持多地图，同时为所有地图统一管理特征点数据库（Bag of Binary Words，DBoW2）。在实时线程中，Atlas管理活动地图与非活动地图之间的切换及整合。
创新方法与技术改良的IMU初始化：跳脱以往惯性初始化方法缓慢（约需15秒）的限制，提出基于最大后验估计（Maximum A Posteriori, MAP）的快速初始化方法，2秒即可完成约5%误差的尺度估计。
非矩形化的立体视觉支持：通过通用相机模型实现对鱼眼镜头（Fisheye）及非共面立体相机的支持，无需图像矫正，从而避免严重的图像裁剪问题。
多地图关联与无缝合并：提出基于DBoW2的区域三维点校准方法，并通过与邻近区域的局部Bundle Adjustment进一步消除误差。
数据分析与实验结果单阶段实验（Euroc数据集分析）作者使用四种传感配置（单目、双目、单目-惯性、双目-惯性）评估了11个Euroc数据集的所有序列。ORB-SLAM3在所有传感配置下的平均轨迹误差（Root Mean Square Absolute Trajectory Error, RMS ATE）均显著优于最好的现有系统。例如： - 单目系统误差比ORB-SLAM2低，受益于更灵活的地图重用性能。 - 单目-惯性系统精度约为VINS-Mono的两倍，且展现出极高鲁棒性。 - 双目-惯性系统达成了3.5厘米（飞行场景）和9毫米（快速手持模糊场景）内的精度。
多阶段实验（多地图关联效果）针对Euroc和TUM-VI数据集的多阶段实验表明ORB-SLAM3在跨会话环境中的无缝地图合并表现出高度鲁棒性，例如在多序列处理后轨迹漂移显著减小（如TUM建筑内部路径）。
计算性能即使在大规模地图或多线程条件下，ORB-SLAM3的追踪和映射仍保持高效（每关键帧耗时约30-40ms），地图合并时的全局优化时间控制在数秒内，并不会影响系统其他线程。
研究结论与意义ORB-SLAM3是首个支持全面多级数据关联（短期-中期-长期）与多地图管理的视觉与视觉-惯性SLAM方案，与现有工作相比在鲁棒性、实时性和扩展性上有显著提升。系统在模拟增强现实（VR/AR）、无人车（Autonomous Vehicles）以及多传感器系统中的表现优越，实际意义和远期科技生态影响重大。
研究亮点首次提出真正的多地图融合SLAM算法，支持无缝地图合并。
快速IMU初始化：全面超越以往方法，同时显著提升非足够纹理环境下的容错能力。
开源：作为开源解决方案，ORB-SLAM3将极大推进视觉SLAM研究领域的进展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问