本学术报告旨在介绍一项发表在 IEEE Internet of Things Journal(2026年1月)上的原创性研究工作,题为“Semantic-Aware and Depth-Adaptive LiDAR SLAM with Contextual Loop Closure in Dynamic Environments”。该研究由 Jin Sun(通讯作者之一)、Yuemin Li、Si Chen、Haitao Zhao、Tiantian Tang(通讯作者之一)和 Guan Gui 共同完成,所有作者均来自南京邮电大学物联网学院或通信与信息工程学院,部分作者亦与上海交通大学海洋工程国家重点实验室有合作。这项研究针对复杂动态环境中激光雷达同时定位与地图构建(Simultaneous Localization and Mapping, SLAM)技术的核心挑战,提出了一个名为 LEGO-LOAM-RAS 的创新框架。
学术背景与动机 激光雷达SLAM是自动驾驶、无人机和智能机器人等领域的底层关键技术,负责在未知环境中实时估计载体位姿并构建地图。其中,轻量化地面优化激光雷达里程计与地图构建(Lightweight and Ground-optimized LiDAR Odometry and Mapping, LEGO-LOAM)是一个里程碑式的框架,因其高效的性能而被广泛应用。然而,LEGO-LOAM及类似传统方法在面对复杂动态环境时,暴露出三个主要局限:其一,其点云分割完全依赖几何特征(如RANSAC平面拟合和欧氏聚类),缺乏语义感知能力,无法区分道路、车辆、建筑等不同物体,在几何结构相似或非结构化场景中容易失效。其二,其特征提取(Feature Extraction)策略简单且固定,仅基于关键点与其五个最近邻点的深度差平方和进行分类,无法适应场景深度变化和复杂结构,导致特征误选或漏选,影响后续位姿估计精度。其三,其回环检测(Loop Closure Detection)机制(如果使用,如基于SCAN CONTEXT的方法)仅依赖几何信息,容易受动态物体干扰,且在几何相似但语义不同的环境中(如两条相似的走廊)难以准确识别回环,易产生误判或漏判。
因此,本研究旨在克服上述局限性,目标是将语义感知能力、自适应的特征提取策略和结合语义上下文的回环检测机制深度集成到LEGO-LOAM框架中,从而在动态和复杂环境下实现更高精度、更强鲁棒性的激光雷达SLAM。
研究流程与详细方法 本研究提出的 LEGO-LOAM-RAS 框架基于LEGO-LOAM的模块化架构,但在三个核心模块上进行了根本性改造,构成了一个统一的工作流程。研究流程主要包括三个创新性过程:基于深度学习的统一语义感知处理流水线、深度引导的自适应特征提取以及语义上下文回环检测。整个系统在公开的KITTI和Stevens-VLP16数据集上进行了严格的实验评估,并与原始LOAM、LEGO-LOAM进行了性能对比。
过程一:统一语义感知处理流水线 该过程旨在将深度语义理解引入SLAM前端。研究对象是每一帧激光雷达扫描得到的原始点云。具体流程如下: 1. 点云预处理:首先,沿用LEGO-LOAM的方法进行初步的地面点提取,将点云分为地面点和非地面点。随后,对非地面点集进行预处理以适配深度学习模型输入。这包括:随机采样,将点云数量固定为一个最大值(如公式1所示),以降低计算负担并保持效率;坐标归一化,通过计算点云质心和最大距离缩放因子(公式2-4),将点云归一化到一个单位球内,提升网络训练和推理的稳定性。 2. 深度学习推理:预处理后的点云被送入一个预训练的RandLA-Net 深度神经网络模型中进行语义分割。RandLA-Net的核心是其局部特征聚合模块,通过随机采样、局部空间编码和注意力池化等机制,能够高效处理大规模点云并进行逐点语义分类。模型输出每个非地面点的语义标签(如车辆、行人、建筑等,如公式5所示)。 3. 后处理:为了将语义信息无缝集成回SLAM流程,需要进行后处理。首先进行坐标恢复,将归一化后的点云通过逆变换恢复到原始坐标空间(公式6)。然后进行基于语义的分割,根据映射后的语义标签,将点云划分为多个语义子集(公式7),每个子集对应一个语义类别(如道路集、车辆集等)。最终输出是带有精确语义标注的点云,为后续自适应特征提取和回环检测提供丰富的上下文信息。
过程二:自适应特征提取机制 此过程针对传统固定邻域特征提取的不足,提出了一种深度引导的自适应策略。研究对象是经过语义标注后的非地面点云。 1. 噪声过滤:在计算特征之前,首先基于深度误差进行噪声抑制。计算关键点与其邻域点的深度差(公式8),如果差值超过一个预定义的阈值τ,则认为该邻域点为噪声并排除在特征计算之外。 2. 深度自适应邻域选择:这是该模块的核心创新。研究者认识到,对于距离传感器较近(深度小)的点,固定的角度邻域所覆盖的线性距离较小,可能包含信息不足;而对于远处的点,同样的角度邻域会覆盖过大的线性区域,引入无关信息。因此,他们提出根据每个关键点的深度,动态调整用于选择邻域点的水平角度跨度。浅深度点使用更大的角度跨度以包含更多邻近点,深深度点使用更小的角度跨度以聚焦局部结构(如图4所示)。 3. 改进的曲率计算与特征选择:在自适应确定的邻域内,使用改进的公式计算每个点的曲率(公式9)。该公式考虑了邻域点集的大小和关键点的深度,能更准确地反映局部几何变化。然后,在整个深度图的水平子分区内,对每行点的曲率进行排序和阈值化分类。与传统方法类似,选择曲率最高的点作为边缘特征候选,曲率最低的点作为平面特征候选。最后,从这些候选集中进一步精炼,选出最具代表性的边缘特征和平面特征子集,用于后续的激光雷达里程计计算。
过程三:语义上下文回环检测 此过程旨在构建更鲁棒、更具判别性的场景描述符以进行回环检测。研究对象是关键帧对应的完整语义标注点云。 1. 语义上下文构建:首先,将带有语义标签的3D点云投影到传感器的X/Y平面上。仿照SCAN CONTEXT方法,将投影平面均匀划分为Ns个方位角扇区和Nr个径向环,形成一个离散的极坐标网格(如图5所示)。每个点根据其极坐标(ρ_i, θ_i)和语义标签l_i被分配到一个网格单元中。 2. 语义直方图生成:对于每个网格单元,统计其内部所有点的语义类别分布,生成一个语义直方图(公式14-15)。该直方图记录了每个语义类别在该单元中点的比例。 3. 二值化与描述符形成:为了提高鲁棒性并减少稀疏语义标签的干扰,对每个单元的语义直方图进行阈值二值化处理(公式16-17)。若某个语义类别的比例超过阈值ς,则在该类别的位上标记为1,否则为0。这样,每个单元都被表示为一个二值向量。将整个网格所有单元的二值向量按顺序排列,即构成当前扫描的语义上下文描述符ω(公式18)。 4. 相似度计算与回环判断:在回环检测时,计算当前帧语义上下文描述符与历史关键帧描述符之间的距离(相似度)。采用与SCAN CONTEXT相似的度量策略。当相似度超过预设阈值时,即判定检测到回环,并为后端优化提供强几何-语义联合约束,从而校正累积误差,保证地图的全局一致性。
主要实验结果 研究在KITTI(序列00, 01, 04)和Stevens-VLP16数据集上进行了全面的定性和定量评估,对比基准为LOAM和LEGO-LOAM。评价指标包括特征点数量、运行时间、绝对轨迹误差(Absolute Pose Error, APE)和相对轨迹误差(Relative Pose Error, RPE)等。 1. 特征提取结果:实验表明,LEGO-LOAM-RAS在三个测试场景中提取的边缘特征数量均比LEGO-LOAM有所减少,这表明其边缘特征提取更具选择性和效率。平面特征数量在某些场景下因RandLA-Net对“可通行平面”类别的精确识别而有所增加,但在经过精炼后,冗余平面特征得到了有效抑制。 2. 计算效率分析:在模块运行时间上,LEGO-LOAM-RAS展现出显著的优化。其分割模块(得益于RandLA-Net的高效推理)和AFE模块在多个场景下的处理时间均低于LEGO-LOAM。尽管在部分场景的建图模块中时间略有增加,但总体计算效率优于或与LEGO-LOAM相当,满足了实时性要求。 3. 位姿估计精度:这是评估SLAM性能的核心。在APE和RPE指标上,LEGO-LOAM-RAS均取得了最佳表现。特别是在最具挑战性的KITTI序列中,其APE平均值低至0.34米(RMSE: 0.34米),显著低于LEGO-LOAM和原始LOAM(表III)。RPE结果也显示出类似的优势,证明了其在短期和长期定位上都具有更高的精度和一致性。可视化轨迹和误差图(图7)清晰显示,LEGO-LOAM-RAS的轨迹与地面真值吻合得更好,尤其在回环区域,误差得到了有效校正。结果分析明确指出,引入RandLA-Net提升了LEGO-LOAM的基础定位精度,而语义上下文回环检测机制相比传统几何方法,能更有效地减少误差。
结论与价值 本研究的结论是,成功开发并验证了LEGO-LOAM-RAS这一新型激光雷达SLAM框架。该框架通过三大创新——集成RandLA-Net的语义感知流水线、深度自适应的特征提取策略以及融合几何与语义信息的上下文回环检测机制——系统地解决了传统方法在复杂动态环境中的局限性。实验证明,该框架不仅在特征提取上更高效、更具选择性,更重要的是,它显著提升了位姿估计的精度和系统整体的鲁棒性,在动态干扰和几何相似场景中表现优异。
其科学价值在于,将前沿的深度学习语义分割技术与经典的几何SLAM框架进行了深度、有效的耦合,为SLAM系统赋予了更高层级的场景理解能力,推动了面向动态、复杂现实世界的SLAM研究发展。其应用价值则直接体现在自动驾驶、移动机器人等领域,更高的定位建图精度和鲁棒性意味着更安全、更可靠的自主导航能力。
研究亮点 本研究的主要亮点在于其系统性的创新整合: 1. 端到端的语义集成:并非简单地在SLAM流程后附加语义分割,而是将RandLA-Net深度整合进处理流水线,用深度学习语义分割完全替代了传统的几何聚类分割,实现了从“几何分割”到“语义理解”的根本转变。 2. 物理感知的自适应机制:提出的自适应特征提取策略并非启发式调整,而是基于传感器物理特性(深度与空间分辨率的关系)进行设计,使得特征提取能智能地适应不同距离下的场景结构,提高了方法的普适性和准确性。 3. 多模态描述符融合:创新的语义上下文回环描述符,巧妙地将离散的语义类别信息编码进连续的几何空间网格中,形成了兼具辨别力(靠语义)和鲁棒性(靠几何统计与二值化)的联合描述符,有效解决了纯几何方法在动态和相似环境中的痛点。 4. 详实全面的实验验证:研究在权威的公开数据集上进行了从特征数量、运行效率到定位精度的多层次、多指标对比实验,数据详实,分析深入,有力地支撑了所提方法的有效性。
其他有价值内容 文中还详细回顾了激光雷达SLAM的发展脉络,从LOAM、V-LOAM、F-LOAM到LEGO-LOAM及其变体,清晰地阐述了技术演进的逻辑和当前面临的挑战,为本研究的动机提供了坚实的背景支撑。此外,文章对RandLA-Net网络结构、AFE的数学公式推导、语义上下文构建的步骤都给予了细致描述,具有很好的可复现性。最后,作者展望了未来研究方向,如多传感器融合、语义分割的终身学习以及在嵌入式平台上的部署优化,为后续研究提供了有价值的思路。