基于扫描重建的激光-惯性-视觉里程计与建图系统:SR-LIVO的学术报告
由华中科技大学人工智能研究所(Institute of Artificial Intelligence, Huazhong University of Science and Technology)和电子与通信学院(Electronic Information and Communications, Huazhong University of Science and Technology)的袁子康(Zikang Yuan)、邓杰(Jie Deng)、明芮晔(Ruiye Ming)、郎奉天(Fengtian Lang)和杨欣(Xin Yang, Member, IEEE)共同完成的研究论文《SR-LIVO: LiDAR-Inertial-Visual Odometry and Mapping with Sweep Reconstruction》,已正式发表于2024年6月的国际权威期刊《IEEE Robotics and Automation Letters》(第9卷第6期)。
学术背景与动因
本研究聚焦于机器人感知与自主导航领域中的核心问题——同时定位与建图(Simultaneous Localization and Mapping, SLAM)。在自动驾驶、无人机等复杂应用中,为了实现对环境的精确感知与三维重建,通常需要融合多种传感器的优势:相机能提供丰富的颜色和纹理信息,但受光照、纹理缺失影响大;激光雷达(LiDAR)能够精确测量三维几何结构,但对颜色信息不敏感;惯性测量单元(IMU)能提供高频的运动先验,但存在显著的漂移。因此,激光-惯性-视觉里程计与建图(LiDAR-Inertial-Visual Odometry and Mapping, LIV-OAM)系统应运而生,旨在融合三者数据,实现高精度的状态估计和稠密的彩色地图构建。
然而,现有的先进LIV-OAM系统,如R3LIVE和FAST-LIVO,普遍采用一种“双状态估计”框架:即一个激光-惯性里程计(LiDAR-Inertial Odometry, LIO)模块负责重建三维几何结构,同时一个激光辅助的视觉-惯性里程计(LiDAR-Assisted Visual-Inertial Odometry, VIO)模块负责为地图渲染颜色。这两个模块各自独立地进行状态(位置、姿态等)估计。该团队在先前的研究中发现,在相机和激光雷达均不失效(即纹理和几何结构均丰富)的场景下,现有LIO模块的位姿估计精度实际上优于激光辅助的VIO模块。这表明,在理想感知条件下,当前主流架构中的VIO模块可能并非状态估计的最优选择,甚至可能因精度略逊而影响最终的彩色渲染效果。此外,双模块并行运行也带来了计算效率的挑战。
基于此观察,本研究提出了一个核心科学问题:能否设计一种新的LIV-OAM框架,将状态估计的任务完全交由精度更高的LIO模块完成,从而提升系统的整体精度和效率?然而,实现这一构想面临一个关键技术障碍:激光雷达扫描(Sweep)的结束时间戳与相机图像采集的时间戳通常是不同步的。如果LIO模块只估计扫描结束时刻的状态,而不知道图像采集时刻的精确位姿,则无法正确地将图像颜色信息投影并渲染到三维地图上。为了解决这一问题,本研究引入并深化了“扫描重建”(Sweep Reconstruction)的概念,旨在构建一种新颖、高效且更精确的LIV-OAM系统——SR-LIVO。
详细工作流程
SR-LIVO系统主要包含三个模块:扫描重建模块、LIO状态估计模块和视觉模块。整个流程的核心创新在于通过扫描重建实现时间戳对齐,从而将状态估计完全转移至LIO模块。
1. 扫描重建模块(时间戳对齐) 这是本研究的核心创新步骤,其目标是将重建后的激光雷达扫描的结束时间戳,与相机图像采集的时间戳精确对齐。具体处理方法根据原始激光扫描频率和相机图像频率的不同关系,分为三种情况: * 情况A:图像频率高于激光扫描频率两倍以上。 为避免重建扫描点云过于稀疏导致LIO失效,首先将图像频率下采样至激光扫描频率的两倍。然后将原始激光扫描(如连续的两个扫描S_j-1和S_j)拆解为连续的点云数据流,并按照下采样后图像的时间戳(如Tc_i)重新组合,生成结束时间戳与该图像时间戳对齐的重建扫描(如P_i)。此时,重建扫描的点云数量仅为原始扫描的一半,对于旋转式雷达,水平视场角也从360度减为180度。 * 情况B:图像频率低于激光扫描频率两倍但高于其本身。 此时,直接拆解原始激光扫描,并按照原始图像的时间戳重组点云数据流,使重建扫描的结束时间戳与图像时间戳对齐。重建扫描的点云数量和视场范围虽小于原始扫描,但仍足以支持LIO模块正常运行。 * 情况C:图像频率低于激光扫描频率。 当一段时间内没有图像到达时,系统按照一个原始扫描的周期生成重建扫描;当有图像到达,且距离上次重建扫描开始有足够时间间隔时,则以该图像时间戳作为重建扫描的结束时间戳。这种情况下,并非所有同步数据都包含图像,无图像时仅运行LIO模块进行状态估计。
通过上述方法,系统能够为每一个图像帧生成一个与之时间戳对齐的激光雷达点云“数据包”,从而使得后续的LIO模块能够直接估计出图像采集时刻的传感器状态。
2. LIO状态估计与建图模块 该模块完全承担了系统的状态估计(位姿、速度、IMU偏差)和三维几何结构重建的任务。本研究直接采用了作者团队先前工作SR-LIO中实现的LIO模块,其基于误差状态迭代卡尔曼滤波(Error State Iterated Kalman Filter, ESIKF)框架,利用对齐后的激光点云和IMU数据进行紧耦合优化,实时估计平台状态并更新全局地图。地图管理采用了与CT-ICP算法相同的哈希体素地图结构,便于高效地进行点云匹配和插入。
3. 视觉模块(参数优化与渲染) 由于状态已由LIO模块精确给出,视觉模块的角色被极大简化,不再进行状态估计,仅专注于两项任务: * 相机参数在线优化: 使用一个独立的ESIKF来优化相机参数,包括内参(焦距、主点偏移)、外参(相机到IMU的旋转和平移)以及相机与IMU间的时间偏移。优化过程结合了两类观测: * 最小化PNP重投影误差: 从上一帧图像中跟踪一批2D特征点,利用光流法在当前帧图像中找到对应点,结合LIO提供的精确位姿和地图中的3D点,构建重投影误差来更新相机参数。 * 最小化光度误差: 将近期更新的地图点投影到当前图像平面上,比较地图点已渲染的颜色强度与图像对应像素的颜色强度,构建光度误差进一步优化相机参数。 * 颜色渲染: 在相机参数优化后,系统执行渲染功能。不仅对近期更新的地图点进行着色,还会对近期访问过的所有体素内的点进行着色,以确保彩色点云地图的密度。渲染函数与R3LIVE系统保持一致。
主要实验结果与分析
研究在两个公开数据集上对SR-LIVO进行了全面评估:NTU_VIRAL数据集(无人机采集,提供高精度真值)和R3LIVE数据集(手持设备采集,无真值)。实验主要围绕系统整体性能、设计逻辑验证和模块消融分析展开。
1. 与前沿系统的性能对比 * 定位精度: 在NTU_VIRAL数据集上,使用绝对轨迹误差(Absolute Trajectory Error, ATE)作为评价指标。结果显示,SR-LIVO在几乎所有序列上的ATE均低于对比方法R3LIVE和FAST-LIVO,并且在个别R3LIVE会中途失效的序列上表现出更好的鲁棒性。 * 渲染质量: 采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似性指数(Structural Similarity Index Measure, SSIM)评估彩色地图的渲染效果。SR-LIVO在所有测试序列上的PSNR和SSIM值均高于R3LIVE,证明其渲染性能更优。 * 运行效率: 测量每处理一次扫描(一个数据包)的总耗时。SR-LIVO在R3LIVE数据集上耗时约30-34毫秒,在NTU_VIRAL数据集上耗时约14-17毫秒;而R3LIVE的耗时分别为49-58毫秒和10-31毫秒。特别是在R3LIVE数据集上,SR-LIVO的速度提升约1.6倍。实时性曲线图进一步显示,SR-LIVO能够稳定地实时运行,而R3LIVE在相当长的时间内无法保证实时性。
2. LIO模块与激光辅助VIO模块的对比验证(设计逻辑核心) 为了验证“在无失效场景下LIO位姿估计优于激光辅助VIO”这一设计前提,研究进行了关键的对比实验。作者为SR-LIVO框架额外实现了一个类似R3LIVE的激光辅助VIO模块进行对比。 * 定位精度对比: 在NTU_VIRAL数据集上,无论是基于R3LIVE、FAST-LIVO还是SR-LIVO框架,其LIO模块的ATE均显著优于对应的激光辅助VIO模块。这定量证实了研究前提的正确性。 * 渲染效果对比: 比较了使用LIO模块位姿进行渲染的SR-LIVO与使用VIO模块位姿进行渲染的版本(Ours(V))。结果显示,SR-LIVO在所有序列上的PSNR和SSIM值均更高。这直接证明,通过扫描重建获得更精确的图像时刻位姿,能够有效提升彩色渲染的质量。
3. 相机参数优化模块的消融实验 实验对比了开启和关闭相机参数在线优化功能时SR-LIVO的渲染指标。结果显示,在线优化能小幅提升PSNR和SSIM值。由于所用数据集的离线标定参数已较为精确,因此优化带来的提升幅度有限,但这证明了该模块的有效性。
4. 可视化效果 可视化结果表明,SR-LIVO在R3LIVE数据集上能够重建出与R3LIVE质量相当、细节丰富的稠密彩色点云地图;而在NTU_VIRAL数据集上,SR-LIVO重建的灰度地图在几何完整性和清晰度上显著优于R3LIVE。
结论与价值
本研究成功提出并实现了一种基于扫描重建的新型激光-惯性-视觉里程计与建图系统——SR-LIVO。其核心贡献在于:第一,发掘并利用了扫描重建的关键功能——实现激光扫描与相机图像的时间戳对齐;第二,基于此设计了一种创新的LIV-OAM框架,将高精度的状态估计任务完全交由LIO模块完成,而视觉模块则简化为专门的参数优化和颜色渲染单元。
SR-LIVO的意义与价值体现在: * 科学价值: 挑战了现有LIV-OAM系统“双状态估计”的范式,提出了“单高精度估计器(LIO)+ 专用渲染器(视觉模块)”的新架构思路,并通过严密的实验证明了该思路在精度和效率上的优越性。深化了多传感器融合中时间同步问题的解决方案。 * 应用价值: 系统在多个公开数据集上实现了业界领先的定位精度和渲染质量,同时运行效率显著高于当前先进系统,具备更强的实时性和鲁棒性。这为自动驾驶、无人机、移动机器人等对精准感知与高效计算有严苛要求的领域提供了一个强有力的工具。作者已开源全部源代码,促进了相关领域的研究与发展。
研究亮点
其他有价值的内容
研究在实验设计上非常全面,不仅进行了整体性能对比,还深入进行了模块间的对比和消融实验,有力支撑了其设计逻辑和各个模块的有效性。此外,论文对扫描重建的三种情况处理描述详细,具有很好的工程指导意义。文末也指出了未来的工作方向,例如在该框架中加入回环检测模块以进一步提升全局一致性。