本文由 Olaya Álvarez-Tuñón(Aarhus University, Denmark)、Yury Brodskiy(EIVA A/S, Denmark)和 Erdal Kayacan(Paderborn University, Germany)共同撰写,并发表于 IEEE Transactions on Artificial Intelligence 第5卷第5期,出版时间为2024年5月。这篇综述文章对单目视觉SLAM(Simultaneous Localization and Mapping,即同时定位与建图)领域的几何型和深度学习型算法进行了全面的分类与评述。
单目视觉SLAM是机器人领域的核心问题之一,它支持机器人在未知环境中的自主操作。SLAM定义了同时生成机器人地图与其位置信息的状态估计问题。通过单目视觉SLAM的研究,机器人仅凭单一相机设备即可完成导航和建图,在成本、设备复杂性和几何灵活性上优于基于双目相机的系统。然而,单目SLAM同样面临一系列挑战,例如动态环境中的元素干扰、恶劣成像条件(例如水下环境中的散射或高动态模糊)和大基线运动中的轨迹漂移等。
本文作者从几何型(geometry-based)和基于深度学习(learning-based)的SLAM算法两个主要框架出发,对当前领域内的研究现状进行了综合性梳理和批判性分析,提出了SLAM在各种特定环境挑战下的抗性评价方法,并对未来发展方向进行了展望。研究的目的是为研究者提供一致的算法分类框架和稳健的性能评估方法。
本文围绕SLAM的前端(front-end)和后端(back-end)模块,重点从方法、环境抗性、挑战和动态发展方向四个层面展开,具体如下:
作者首先定义了SLAM管道的标准模块,并按照几何型与深度学习型SLAM分别讨论这些模块的工作流程与主要方法:
前端模块:数据从传感器获取并抽象为跟踪与定位模型。关键子模块包括:
后端模块:抽象和优化来自前端的地图与轨迹数据。分为:
几何型SLAM算法以其成熟度和稳定性成为机器人领域的主流解决方案。针对几何型方法,文中强调: - 优点:依赖多年的计算机视觉与数学发展,具有较高的效率和精度。 - 缺点:对于几何退化环境(如纹理稀疏或重复场景)、动态条件以及照明变化等,几何型方法容易出现跟踪失败,表现为漂移等。
深度学习型SLAM方法通过学习特征表示(如语义信息、光流等)解决几何法的固有限制,近年来发展速度迅猛。文中分析了如下几个重点: - 前端中的深度学习:例如监督学习方法(如PoseNet)基于卷积神经网络(CNN)回归相机位姿,或无监督学习方法(如SFMlearner)通过训练深度与姿态估计网络。 - 后端中的深度学习探索:近年来有将图神经网络(GNN)应用于图优化的尝试,例如Pogo-Net对相机位姿进行全局与局部优化。 - 全端学习(End-to-End)潜力:作者指出,尽管目前SLAM尚未完全实现端到端学习架构,但已有部分探索(例如GradSLAM框架)展示了将所有SLAM子模块集成为全可微分管道的可能方向。
文中总结了视觉SLAM在实际场景中面临的特定挑战,并通过实验选用了Kitti、EuRoC、TUM-RGBD、Aqualoc和MIMIR-UW五个具有代表性的Benchmark数据集评估了一些主流SLAM算法的适应性。 - 动态环境:如Kitti数据集中的运动车辆,TUM-RGBD中的特定旋转序列。 - 视野恶化:如低光场景、纹理稀疏区域的失败案例。 - 水下环境:如人工光源的不均匀性、浮动粒子的干扰(Aqualoc, MIMIR-UW数据集)。
几何型如ORB-SLAM3在大多数标准场景下表现优异,但在纹理不足及水下光散射情况下失败;深度学习方法如TrianFlow则在这些环境下维持基线运行,但在未训练场景中精度不高,仍展现较大改进空间。
作者认为: - 几何型方法与深度学习方法需要在不同应用场景中形成互补,特别是针对跨应用场景时的泛化性问题。Geometry-based SLAM仍是大数据不足场景的最优选择,而Learning-based SLAM需要更高效和几何感知的网络设计。 - 对深度学习SLAM而言,未来需要在训练数据扩展与分布无偏化、更高维度的网络归纳偏置(Inductive Bias)、计算节能且模块化的管道设计及多传感器集成能力上取得突破。 - GNN、NERF类型的前端发展和端到端优化方向可能成为重要趋势。
本文系统梳理了单目视觉SLAM领域的现状、挑战与未来趋势,并通过实验证明了有效的框架。几何型与深度学习型SLAM在效率与泛化能力上的此长彼消,呼唤在理论与实际的整合中寻求更优解。深度学习SLAM通过高层语义表示展现的潜力是其最值得期待的方向之一,特别是其在感知复杂动态环境下的可能性。