本研究题为《SGLC: Semantic Graph-Guided Coarse-Fine-Refine Full Loop Closing for LiDAR SLAM》,由Neng Wang、Xieyuanli Chen、Chenghao Shi、Zhiqiang Zheng、Hongshan Yu以及Huimin Lu共同完成。通讯作者为Xieyuanli Chen和Huimin Lu。其中,Neng Wang、Xieyuanli Chen、Chenghao Shi、Zhiqiang Zheng和Huimin Lu来自中国国防科技大学智能科学学院,Hongshan Yu来自湖南大学。该研究发表于学术期刊《IEEE Robotics and Automation Letters》2024年12月第9卷第12期。
学术背景 本研究属于机器人学与计算机视觉交叉领域,具体方向为同时定位与地图构建(Simultaneous Localization and Mapping, SLAM)技术,尤其专注于激光雷达(LiDAR)SLAM中的闭环检测(Loop Closing)环节。闭环检测是SLAM系统中的关键模块,旨在通过识别机器人重访的历史场景(即“闭环”),来校正由于里程计漂移累积的位姿误差,从而构建全局一致的地图。该过程主要包含两个核心步骤:闭环检测(Loop Closure Detection, LCD)与闭环位姿校正(Loop Pose Correction)。
近年来,大量研究聚焦于设计鲁棒的全局描述符以提高闭环检测的准确性和效率。然而,许多方法忽视了6自由度(6-Degrees-of-Freedom,6-DOF)闭环位姿的精确估计这一同样关键的任务。少数涉及位姿估计的方法,要么存在精度不足的问题,要么计算开销巨大,难以满足实时SLAM系统的需求。特别是在室外大范围、稀疏且动态变化的环境中,仅依赖几何特征进行闭环与位姿估计面临巨大挑战。随着语义分割技术的发展,将高层语义信息(如物体类别)引入SLAM流程成为一个有前景的方向,以增强场景理解与匹配的鲁棒性。然而,现有结合语义的方法往往未能高效、协同地利用场景中不同元素(如前景点云实例与背景点云)的独特属性,从而实现既快速又精确的全流程(检测+6-DOF位姿估计)闭环。
基于此背景,本研究提出了一种名为SGLC(语义图引导的“粗-细-精”配准全闭环)的新方法。其核心研究目标是:开发一个实时的、语义图引导的激光雷达全闭环框架,该框架不仅能实现鲁棒的闭环检测,还能提供精确的6自由度位姿估计,最终提升SLAM系统的整体精度与一致性。研究旨在克服现有方法在效率与精度上的局限性,通过创新性地利用前景实例的语义图结构信息与背景点云的几何信息,构建一个高效且鲁棒的处理流程。
详细工作流程 SGLC是一个结构化的多阶段处理框架,主要包括四个核心程序:语义图构建、激光雷达扫描描述符生成与闭环候选检索、几何验证、以及6自由度位姿精修。其工作流程紧密围绕对前景(如灯杆、树干、静态车辆)和背景(如建筑、围栏、道路)点云的差异化处理展开。
程序一:语义图构建。 1. 研究对象与处理:输入为原始激光雷达单帧扫描(Scan)。首先,使用一个现成的语义分割网络(研究中采用了SegNet4D)对点云进行分割,为每个点赋予语义标签(如“pole”、“building”),并能区分静态与动态物体。 2. 实验与方法:对分割后的语义点云应用聚类算法,以识别出属于同一物体的点云簇,从而得到“实例”。对于被归类为前景的稳定静态实例(如灯杆、树干),计算其三维包围盒,并以包围盒中心作为该实例的节点位置。 3. 新颖算法:构建语义图。以前景实例为节点,若两个节点之间的空间欧氏距离小于设定阈值(dmax),则在它们之间建立一条边。每条边由连接的两个节点类别(如“pole-trunk”)和边长来描述。最终,形成一个以节点(包含中心位置、包围盒尺寸、语义标签)和边(包含类别与长度)构成的图结构G。 4. 节点描述符生成:为后续的鲁棒节点匹配,需要为每个图节点生成一个独特的描述符f。这通过结合局部与全局图属性实现: * 局部描述符(fl):对于每个节点,统计其所有连接边的类型和长度,生成一个基于直方图的描述符,捕捉节点的局部拓扑关系。 * 全局描述符(fg):对图的邻接矩阵A进行特征值分解,取前k个最大特征值对应的特征向量(取绝对值)来表征每个节点在整个图中的全局结构属性(如中心性)。 * 将fl和fg拼接,得到最终的节点描述符f。这一描述符设计使得即使场景视角发生变化,同一实例的节点也能被有效匹配。
程序二:激光雷达扫描描述符生成与闭环候选检索。 1. 研究目的:为了实现快速的闭环初筛,避免耗时的全图匹配,需要为每一帧扫描生成一个全局描述符用于快速数据库检索。 2. 实验与方法:SGLC设计的全局描述符F由两部分组成: * 前景描述符(Ff):基于程序一构建的语义图。第一部分统计整个图中所有边的类型与长度分布,生成全局边直方图。第二部分统计图中各类语义标签的节点数量。这共同编码了前景实例的拓扑结构与类别分布。 * 背景描述符(Fb):受Scan Context启发,将属于背景类别的点云投影到鸟瞰图(Bird’s Eye View,BEV)的极坐标网格中。但不同于原方法编码最大高度,此处利用语义信息,编码每个网格中主要背景类别的信息,形成旋转不变的环状关键描述符,高效捕获背景的外观特征。 3. 数据处理:对Ff和Fb分别进行L2归一化后拼接,得到最终的激光雷达扫描描述符F。该描述符同时利用了前景的结构化语义信息和背景的密集几何外观信息,增强了其区分度与鲁棒性。 4. 检索流程:在在线运行时,将当前扫描的描述符F与历史关键帧描述符数据库进行比较。使用欧氏距离计算相似度,并借助Faiss库进行快速近似最近邻搜索,返回最相似的多个扫描作为闭环候选。
程序三:几何验证。 此程序旨在对程序二检索出的候选扫描进行验证,滤除错误匹配,并初步估计位姿。 1. 研究对象:当前查询扫描的语义图G_q和每一个候选扫描的语义图G_t。 2. 实验与方法: * 实例节点匹配:基于程序一生成的节点描述符f,计算G_q和G_t中所有节点描述符的余弦相似度,构建代价矩阵。通过匈牙利算法求解最优匹配,得到一组节点对应关系{M_q, M_t}。 * 节点对应关系剪枝(新颖算法):由于视角变化或分割误差,上一步会产生错误匹配(外点)。为提高效率,SGLC提出一种基于局部几何结构的快速外点剔除方法。对于一对匹配节点,检查它们各自在局部邻域内形成的三角形结构是否一致(即对应边长相等)。若一致三角形的数量超过阈值,则保留该匹配对,否则剔除。这显著减少了后续计算量。 * 初始位姿估计:使用剪枝后的正确节点对应关系,通过RANSAC(随机采样一致性)算法结合SVD(奇异值分解)求解一个6自由度的粗略变换T_coarse。在每次RANSAC迭代中,随机选取三对匹配的节点中心,用SVD求解一个变换,最后选择内点数量最多的变换作为T_coarse。 * 闭环候选确认:从两个层面验证候选扫描是否为真正的闭环:1) 图相似度(S_graph):计算在T_coarse变换下,匹配节点中心的对齐误差指数衰减值。2) 背景相似度:用T_coarse对齐两帧扫描的背景点云,重新计算其背景描述符Fb的余弦相似度。仅当S_graph和背景相似度均超过预设阈值时,才确认该候选为真正的闭环,并进入下一步位姿精修。
程序四:6自由度位姿精修。 此程序旨在将程序三得到的粗略位姿T_coarse进一步优化至精确。 1. 研究策略:采用一种新颖的“粗-细-精”(Coarse-Fine-Refine)三级配准策略。 * 粗配准(已完成):即程序三得到的基于稀疏节点中心匹配的T_coarse。 * 细配准:以T_coarse为初始值,对所有匹配上的前景实例的密集点云进行迭代最近点(Iterative Closest Point, ICP)配准。由于已经知道了实例级别的对应关系,点云对应点的搜索空间被极大缩小,使得ICP能够快速、准确地收敛,得到细化的位姿T_icp。 * 精配准:进一步利用背景点云中稳定存在的平面结构(如建筑墙面、地面)。在T_icp的基础上,在背景点云中寻找点对面(Point-to-Plane)的对应关系,并通过最小化点对面距离来进一步优化位姿,得到最终的精修位姿T_refine。这一步充分利用了背景的平面约束,提升了位姿估计的精度和鲁棒性。
主要结果 研究在KITTI、KITTI-360、Ford Campus和Apollo等多个公开激光雷达数据集上对SGLC进行了全面评估,并与多种先进方法进行了对比。
在闭环检测方面的结果:评估指标主要采用最大F1分数(F1_max)和扩展精度(Extended Precision, EP)。在KITTI数据集包含闭环的多个序列上,SGLC取得了最佳的F1_max和EP平均值。特别是在包含大量反向闭环(视角旋转大)的08序列上,SGLC依然表现优异,证明了其良好的旋转不变性。在KITTI-360数据集上,SGLC同样保持了竞争力。此外,在基于重叠率(而非简单距离)定义的更具挑战性的闭环检测任务中(如KITTI 00序列),SGLC在AUC、Recall@1%等指标上也显著优于对比方法。泛化性测试显示,在Ford Campus和Apollo数据集上,SGLC在语义辅助方法中表现最佳,说明其对场景变化和语义分割质量下降具有一定的鲁棒性。在运行效率方面,SGLC的描述符生成与闭环判断速度与人工设计的方法相当,证明了其高效性。
在闭环位姿估计方面的结果:评估指标包括配准召回率(Registration Recall, RR,即成功对齐的百分比)、相对平移误差(Relative Translation Error, RTE)和相对旋转误差(Relative Rotation Error, RRE)。在KITTI数据集上,无论是基于距离(4米内)的简单闭环对,还是基于低重叠率(>0.3)的困难闭环对,SGLC均取得了最佳的位姿估计性能,RR接近或达到100%,且RTE和RRE显著低于对比方法(如Bow3D和LCDNet)。这证明了其“粗-细-精”配准策略在处理大视角变化时的强大鲁棒性和高精度。在KITTI-360数据集上,SGLC同样展示了优秀的对齐精度。更重要的是,SGLC的位姿估计模块平均运行时间远快于其他6-DOF位姿估计方法。
在SLAM系统集成方面的结果:研究者将SGLC集成到A-LOAM里程计中,构成一个完整的SLAM系统。实验表明,集成SGLC后,通过位姿图优化有效消除了累积误差,得到了与真实轨迹更吻合的全局一致地图,其轨迹精度显著优于集成其他闭环方法(如Bow3D)的基线系统。这直接验证了SGLC在实际SLAM应用中的价值。
消融研究结果:通过系统性地移除或替换SGLC中的关键组件,研究证实了各部分的有效性。具体包括:1) 节点描述符中加入全局图属性(fg)提升了匹配性能;2) 提出的基于局部结构的节点对应关系剪枝方法有效提高了RANSAC的效率和位姿估计精度;3) “细配准”(实例点云ICP)和“精配准”(背景点云点对面优化)都是提升最终位姿精度的必要环节,二者结合效果最优;4) 直接对原始点云进行ICP或点对面优化,不仅效果不佳,且计算成本更高,反衬出SGLC分阶段、分对象处理的优越性。所有组件均展现出较高的执行效率。
结论与价值 本研究的结论是,所提出的SGLC框架成功实现了一个高效、精确且鲁棒的激光雷达全闭环解决方案。其科学价值在于:1) 方法论创新:提出了一种协同利用前景语义图结构信息与背景几何信息的统一框架,明确了二者在不同阶段(检测、验证、配准)的差异化作用机制。2) 算法贡献:设计了结合局部与全局属性的语义图节点描述符、高效的节点匹配外点剪枝算法、以及创新的“粗-细-精”级联配准策略,为解决6-DOF闭环位姿估计的精度与效率平衡问题提供了新思路。
其应用价值非常直接且显著:SGLC支持实时在线运行,整体流程耗时低于典型旋转式激光雷达的数据采集周期(100ms),易于集成到现有的激光雷达SLAM系统中。实验证明,集成SGLC能有效提升SLAM系统的全局一致性,这对于自动驾驶、移动机器人等需要精确长期定位与建图的应用至关重要。
研究亮点 本研究的亮点主要体现在以下几个方面: 1. 全流程闭环解决方案:不仅关注闭环检测,更提供了高效、高精度的6-DOF位姿估计,形成了一个完整的、可实用的技术闭环。 2. 语义与几何的协同利用:创新性地根据前景(结构化、稳定)和背景(密集、富含平面)点云的不同特性,在描述符生成、验证和配准等不同阶段进行差异化、互补性的利用,充分发挥了语义信息的优势。 3. 新颖的“粗-细-精”配准策略:将闭环位姿估计分解为从稀疏语义节点到密集实例点云,再到背景平面约束的渐进优化过程,每一步都从一个良好的初始值开始,确保了算法的收敛速度、精度和鲁棒性。 4. 高效的图处理与外点剔除:设计的节点描述符和基于局部几何的剪枝方法,在保证匹配鲁棒性的同时,极大提升了图匹配和位姿初始化的效率,满足了实时性要求。 5. 卓越的实验性能:在多个具有挑战性的公开数据集上,SGLC在闭环检测和位姿估计任务上均达到了领先水平,并展示了良好的泛化能力,其有效性和优越性得到了充分验证。