分享自:

动态环境下基于语义约束的激光雷达SLAM方法

期刊:remote sens.DOI:10.3390/rs13183651

面向动态环境的激光雷达语义约束SLAM系统研究报告

一、 作者、机构与发表信息

本文的主要作者为王伟旗、游雄、张欣、陈玲玉、张蓝天和刘旭。他们的研究机构分别为中国人民解放军战略支援部队信息工程大学地理空间信息学院(王伟旗、游雄、张欣、陈玲玉)、北京遥感信息研究所(张蓝天)以及空军航空大学(刘旭)。本文发表在开源学术期刊 *Remote Sensing*(ISSN 2072-4292)2021年第13卷,文章编号3651,于2021年9月13日正式发表。文章标题为“*LiDAR-based SLAM under Semantic Constraints in Dynamic Environments*”(动态环境下的基于激光雷达的语义约束SLAM)。

二、 学术背景与研究目标

本研究的核心科学领域是机器人学、计算机视觉与测绘学的交叉领域,具体聚焦于即时定位与地图构建(SLAM, Simultaneous Localization and Mapping) 技术。随着人工智能和智能机器人技术的发展,SLAM作为机器人环境感知和自主导航的关键技术,其应用场景正从理想的静态环境转向复杂多变的现实动态环境。在动态环境中,行人、车辆等移动物体会干扰传统SLAM算法中的数据关联过程,导致定位(位姿估计)产生偏差,进而影响构建地图的精度和系统的鲁棒性。为了解决这一问题,近年来,语义SLAM成为了重要的研究方向,其核心思想是融合语义信息,帮助机器人理解环境,区分动态与静态物体,从而提升SLAM在动态环境下的性能。

然而,与视觉SLAM相比,基于激光雷达(LiDAR)的SLAM研究更多地集中于对原始点云的直接几何处理,在点云语义分割、动态物体处理与语义地图构建的深度融合方面,仍有待深入。具体而言,现有方法存在两个主要挑战:一是点云语义分割的实时性与准确性有待平衡;二是如何在动态环境中精准筛选动态物体,避免将临时静止的物体(如路边停靠的车辆)错误地剔除,从而保证用于位姿估计的特征点数量充足且可靠。

因此,本研究的主要目标是:1)提出一种实时、准确的激光雷达点云语义分割方法;2)设计一套有效的动态环境要素筛选策略,精确识别并滤除环境中的真正移动物体;3)构建一个完整的、在动态环境下运行的、融合语义约束的激光雷达SLAM框架,以实现更精确、更鲁棒的定位与语义地图构建。

三、 详细工作流程

本研究提出的SLAM框架包含四个核心模块:点云数据投影、语义分割、动态要素筛选和语义地图构建。其整体流程(如图3所示)可概括为:首先,将每一帧原始激光雷达点云通过球面投影转化为二维投影图像;接着,使用提出的SANet网络对投影图像进行语义分割,得到每个像素的语义标签;然后,利用先验知识与上下文信息,通过动态要素筛选算法对分割结果进行精细化处理,生成一个区分了静态与动态像素的语义标记图;最后,基于该标记图,仅使用静态环境要素进行位姿估计(通过改进的帧到地图ICP算法)并构建语义地图。

1. 点云数据投影模块 * 研究对象的处理:使用KITTI、SemanticKITTI和SemanticPOSS这三个公开数据集中采集的激光雷达点云序列作为输入。每一帧点云数据均作为独立处理单元。 * 实验/处理方法:采用球面投影(Spherical Projection) 方法,将三维无序点云 ( P ) 中的每个点 ( p_i = (x, y, z) ) 映射到二维图像平面上的像素 ( i_i = (u, v) )(公式1)。通过这一投影,生成了三种图像:投影图像(或距离图像)I(存储原始点坐标、距离和反射强度)、深度图 D法向量图 N。法向量图通过计算投影图像中相邻像素的向量叉积得到,并对图像边界进行了特殊处理以保证连续性(公式2-4)。此步骤将三维最近邻搜索问题转化为高效的二维图像像素遍历问题,为后续实时语义分割奠定了基础。

2. 语义分割模块:SANet网络 * 研究对象与样本量:主要在SemanticKITTI数据集上进行模型训练与测试。使用序列00-07和09-10共19130帧点云作为训练集,序列08共4071帧作为验证集,序列11-21共20351帧作为官方测试集。这些数据包含了丰富的城市道路场景及19类物体标注。 * 自研算法/方法:本文核心贡献之一是提出了一个基于空间注意力机制(Spatial Attention Mechanism) 的激光雷达点云语义分割网络——SANet。 * 动机:作者观察到,激光雷达点云经球面投影后的图像具有“强空间相关性”,包括空间先验(如天空在上、路面在下)、上下文相关性(如车辆与道路相关)和空间分布规律性(如建筑物分布在图像两侧)。现有的SqueezeSegV3网络虽然利用了空间先验,但未充分挖掘后两种特性。 * 网络结构:SANet(如图5所示)由空间注意力模块编码器-解码器(Codec)模块组成。 * 空间注意力模块:进一步分为注意力模块上下文模块。注意力模块使用较大的感受野来捕获全局空间分布信息,学习重要特征、抑制无关特征。上下文模块则通过融合不同大小的感受野来聚合多尺度上下文信息,捕捉更精细的局部关联。 * 编码器-解码器模块:基于ResNet架构,包含四个编码器和三个解码器,使用平均池化和跳跃连接,最终通过soft-max分类器输出每个像素的语义类别概率。 * 数据处理与训练:网络输入是一个五通道的 [w×h×5] 张量,包含点的x, y, z坐标、距离r和反射强度i。模型在配备8块GeForce RTX™ 2080 Ti GPU的平台上训练了150个轮次(epoch)。评价指标采用平均交并比(mIoU, mean Intersection-over-Union)

3. 动态要素筛选模块 * 研究对象的处理:处理的对象是SANet输出的语义分割结果图S和由前序帧得到的语义标记图G。该模块的核心是确定每个像素(对应的三维点)属于静态还是动态环境要素。 * 自研算法/方法:这是本文的第二个核心贡献——一个结合了先验知识上下文信息的动态物体筛选策略。 * 先验知识分级:模仿人类空间认知,将环境要素(基于数据集的14个子类别归并为6大类)按动态可能性进行量化分级(0为完全动态,1为完全静态),如图6所示。例如,“行人”、“骑行者”动态指数低,“建筑物”、“地面”动态指数高,“汽车”等属于介于两者之间的“半动态”要素。 * 上下文信息筛选算法(算法1): 1. 初始化标记图:根据先验分级,将明显静态和动态的像素在语义标记图G中分别标记为1和0,将“半动态”像素初始化为待定值(如0.3)。 2. 计算平均位移:利用相邻帧间已确定的静态像素(S_{t-1}·G_{t-1})和当前帧对应像素(S_t·G_t)在图像上的平均像素位移 ( \bar{ad} ),作为场景运动的参考基线(公式7)。此处利用了前一帧的位姿变换 T_{t-2}^{t-1} 作为初始运动估计。 3. 判定与更新:对于当前帧中每一个待定的语义要素像素,计算其与上一帧对应位置(经运动补偿后)的像素位移。如果该位移小于一个由阈值权重ρ放大的平均位移 ( \rho·\bar{ad} )(公式8),则认为该要素在当前帧是静态的,将其在标记图G_t中的值更新为1,否则更新为0。 * 意义:此算法巧妙地将“静态”定义为“相对于周围静态背景运动一致或几乎不动”。这样,路边停靠的车辆(与背景位移一致)会被判定为静态并用于定位,而正在行驶的车辆(有相对位移)则被剔除。这解决了简单按类别剔除可能导致的特征不足问题。

4. 语义地图构建与位姿估计模块 * 研究方法:采用基于面元(Surfel) 的地图表示法和帧到地图的迭代最近点(ICP, Iterative Closest Point) 算法进行位姿估计。 * 自研改进方法:提出了语义约束下的帧到地图ICP。 * 误差函数:在标准ICP的Point-to-Plane误差函数基础上,引入了语义标记图G作为掩码(公式9)。误差最小化过程仅考虑被标记为静态的像素点(I·G)与其在地图中对应面元的法向量之间的距离。 * 权重矩阵:考虑到激光雷达向前扫描的数据包含更多新信息,对位姿估计贡献更大,作者设计了一个权重矩阵W。该矩阵赋予投影图像中间区域(对应传感器前方视野)的像素更高的权重,两侧(侧方和后方的数据复用较多)权重较低(图9)。 * 优化求解:使用Levenberg-Marquardt算法求解6自由度位姿增量ξ(公式11),并迭代优化直至收敛,最终得到当前帧的精确位姿 T_{W}^{I_t},并利用静态点云更新全局语义面元地图。

四、 主要研究结果

1. 语义分割实验结果(在SemanticKITTI数据集上) * 结果数据:如表1所示,SANet在SemanticKITTI测试集(序列11-21)上取得了 59.2% 的mIoU,显著优于对比的Rangenet++(52.2%)、SqueezeSegV3(55.9%)、SalsaNet(44.2%)和SalsaNext(54.5%)。特别在“自行车”(49.7% vs 38.7%)、“行人”(57.5% vs 45.6%)、“摩托车骑手”(33.5% vs 20.1%)等动态物体类别上提升明显。 * 结果解释与逻辑关系:这一结果表明,SANet设计的空间注意力机制能有效聚合点云投影图像的强空间相关特征,显著提升了分割精度,尤其是对后续动态筛选至关重要的各类物体的识别精度。高精度的语义分割是后续进行可靠动态要素筛选的绝对前提。此结果验证了SANet作为本SLAM系统前端感知模块的有效性。

2. SLAM系统评估结果(在KITTI和SemanticPOSS数据集上) * KITTI数据集评估: * 结果数据:将本方法(Our Approach)与激光雷达SLAM方法SUMA++、以及两个优秀的动态视觉SLAM方法DynaSLAM和DM-SLAM进行横向比较,评价指标为绝对轨迹误差(APE, Absolute Pose Error) 的平移部分均方根误差(RMSE)。如表2所示,在11个序列中,本方法在6个序列(00, 03, 04, 05, 06, 07, 08, 09)上的RMSE低于或等于SUMA++,其中在序列08上提升显著(2.56m vs 3.25m)。与视觉SLAM方法相比,本方法在序列00, 04, 05, 06, 07, 10上表现更优或相当。 * 结果解释:KITTI数据集中动态物体(主要是车辆)大多处于静止或低速状态,是检验动态筛选算法能否正确保留“静态车辆”特征的理想场景。实验结果表明,本方法通过动态要素筛选,在多数序列上取得了比原SUMA++更优的定位精度,证明了所提筛选策略能有效保留有用的静态特征,提升了位姿估计的鲁棒性和准确性。与视觉SLAM的部分对比优势也体现了激光雷达在几何精度上的特点。序列01(高速公路)和02的误差较大,可能与场景特征单一、动态筛选在高速场景下的挑战有关。 * SemanticPOSS数据集评估: * 结果数据:该数据集动态物体(行人、骑行者、车辆)实例密度远高于KITTI(表3),更具挑战性。由于SUMA++无法在此数据集运行,本文仅报告了自身方法的APE。如表4所示,在6个序列上,平移RMSE在0.09m到0.17m之间,表现优异。 * 结果解释与逻辑关系:在高度动态的校园环境中取得低轨迹误差,强有力地证明了本SLAM框架在真实动态环境中的有效性和鲁棒性。这归功于语义分割提供了准确的物体类别信息,以及动态筛选算法在海量动态干扰中成功识别并利用了稳定的静态环境要素。此结果验证了整个系统工作流程的闭环有效性。

五、 研究结论与价值

本研究成功构建并验证了一个在动态环境下运行的、基于激光雷达的语义约束SLAM系统。主要结论如下: 1. 提出的SANet语义分割网络,通过空间注意力机制有效利用了激光雷达点云投影图像的特性,在保证实时性的前提下,显著提升了分割精度。 2. 设计的动态环境要素筛选算法,结合先验知识与上下文信息,能够智能地区分环境中的真正动态物体与临时静态物体,为SLAM提供了更纯净、更稳定的静态特征,从而提高了位姿估计的精度和系统的鲁棒性。 3. 整合上述技术的完整SLAM框架,在公开数据集上的实验表明,其定位精度优于或媲美当前先进的激光雷达和视觉SLAM方法,尤其在高度动态环境中表现稳定。

本研究的科学价值在于:深化了语义信息与激光雷达SLAM融合的理论与方法,特别是在动态环境处理方面提出了新的思路(通过上下文运动一致性而非简单语义类别来判定动态性),推动了语义SLAM从静态环境向复杂动态环境的演进。 其应用价值显著:该技术可直接应用于自动驾驶、移动机器人、无人机巡检等领域,使智能体能够在充满行人和车辆的现实世界中实现更可靠的自定位、导航和环境理解,构建包含丰富语义信息的高精度地图。

六、 研究亮点

  1. 方法创新性强:提出了专为激光雷达点云投影图像设计的“空间注意力模块”,通过注意力机制与上下文模块的协同,创新性地利用了该类图像的强空间相关性,提升了分割性能。
  2. 动态处理策略巧妙:提出的动态要素筛选算法是本研究的核心亮点。它超越了简单的“语义过滤”,引入了基于运动一致性的上下文分析,能够精细处理“半动态”物体(如停靠车辆),解决了动态SLAM中“剔除过度导致特征不足”的经典难题。
  3. 系统整合与验证充分:研究并未停留在单一算法改进,而是构建了从感知(分割)到决策(筛选)再到状态估计(SLAM)的完整技术链条,并在多个具有不同特点的公开数据集(SemanticKITTI, KITTI, SemanticPOSS)上进行了全面、横向与纵向的对比实验,验证了系统的综合性能和泛化能力。

七、 其他有价值的内容

  1. 文章对相关工作进行了一定篇幅的综述(第2章),清晰梳理了点云语义分割(基于点、基于图像、基于体素的三类方法)、语义SLAM(基于物体的语义地图与基于区域的语义地图)以及动态环境SLAM的研究脉络,为本研究的定位提供了扎实的背景。
  2. 在技术细节上,文章对球面投影的边界处理、法向量计算、权重矩阵的设置原理等都给出了详细说明或公式推导,体现了工作的严谨性和可复现性。
  3. 作者在讨论部分也客观指出了当前方法的局限性,例如点云投影到二维图像导致的高度(Z方向)信息损失可能引起误差,这为未来研究指明了改进方向(如探索更有效的三维特征提取与融合方法)。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com