类型b
本文由Tsinghua University自动化系的Jun Zhu、Hongyi Li和Tao Zhang(通讯作者)合作完成,发表于2024年4月的《Tsinghua Science and Technology》第29卷第2期。文章题为《Camera, LiDAR, and IMU Based Multi-Sensor Fusion SLAM: A Survey》,是一篇关于多传感器融合SLAM(Simultaneous Localization and Mapping,同步定位与建图)技术的系统性综述。
SLAM技术是机器人领域的核心问题之一,旨在通过传感器数据实时估计机器人位姿并构建环境模型。随着自动驾驶、智能机器人、增强现实(AR)和虚拟现实(VR)等应用的普及,单一传感器(如相机、激光雷达LiDAR或惯性测量单元IMU)的局限性(如低精度、长期漂移)促使多传感器融合成为研究热点。本文聚焦视觉(Camera)、LiDAR和IMU三类主流传感器的融合方法,梳理了近十年的研究进展,并分析了未来方向。
文章首先介绍了SLAM中两种主流状态估计框架:卡尔曼滤波(Kalman Filter, KF)和滑动窗口优化(Sliding Window Optimization)。
- 卡尔曼滤波通过递归更新状态估计,分为标准KF、扩展卡尔曼滤波(EKF)、迭代EKF(IEKF)和误差状态KF(ESKF)。例如,ESKF通过分离名义状态和误差状态,减少了非线性问题的影响。
- 滑动窗口优化通过局部窗口内的多状态联合优化提高精度,例如VINS-Mono通过IMU预积分和视觉重投影误差构建目标函数,兼顾计算效率与精度。
根据传感器组合,文章将融合算法分为四类:
- 视觉-惯性(Visual-Inertial)融合:分为基于滤波(如MSCKF 2.0)和基于优化(如VINS-Mono)的方法。MSCKF 2.0通过改进线性化点选择提升一致性;VINS-Mono则通过紧耦合优化实现高鲁棒性。
- LiDAR-惯性(LiDAR-Inertial)融合:包括松耦合(如LOAM结合IMU运动补偿)和紧耦合(如LIO-SAM通过因子图优化融合点云与IMU数据)。Fast-LIO2提出直接原始点云配准,显著提升计算效率。
- 视觉-LiDAR融合:松耦合方法(如DEMO通过LiDAR深度增强视觉特征)依赖传感器独立处理;紧耦合方法(如V-LOAM)联合优化几何与光度误差。
- LiDAR-视觉-惯性融合:如LVI-SAM通过因子图整合三类传感器,利用视觉闭环检测修正LiDAR漂移;R3LIVE通过直接光度误差实现实时RGB点云建图。
文章指出以下关键挑战:
- 传感器标定:在线标定(如相机-IMU外参)依赖特定初始化或环境特征,缺乏通用性。
- 数据关联效率:多模态数据(如视觉-LiDAR)的实时融合对计算资源要求较高。
- 动态环境处理:现有算法多假设静态环境,动态物体(如行人)易导致位姿估计退化。
未来研究方向包括:
- 通用高效框架:支持自动标定与快速初始化的统一架构。
- 深度学习辅助:用于特征提取、动态物体检测和环境建模。
- 分布式协同SLAM:多机器人协作以分担计算负载。
本文的价值体现在三方面:
1. 系统性梳理:首次全面总结视觉、LiDAR和IMU融合的SLAM方法,填补了LiDAR-惯性或视觉-惯性综述的空白。
2. 技术对比:通过分类比较滤波与优化框架、松耦合与紧耦合策略,为研究者选择方法提供清晰指南。
3. 前瞻性分析:提出的挑战(如动态环境)和方向(如深度学习)为后续研究指明路径。
本文可作为新研究者的入门指南,也为资深学者提供了技术参考和未来探索方向。