基于隐式点体素LiDAR-IMU SLAM的无结构环境鲁棒定位方法

分享自：
基于隐式点体素LiDAR-IMU SLAM的无结构环境鲁棒定位方法

期刊:IEEE Transactions on Automation Science and EngineeringDOI:10.1109/TASE.2026.3683446
隐式点对体素激光雷达-惯性SLAM系统P2V-SLAM的学术研究报告
一、 研究作者、机构与发表信息
本研究的主要作者为 Yan Dong, Enci Xu, Junyu Yang, Shaoqiang Qiu, Jiong Wang 以及通讯作者 Bin Han (IEEE高级会员)。所有作者均来自华中科技大学机械科学与工程学院，智能制造装备与技术全国重点实验室。该研究成果以论文《Implicit Point-to-Voxel Lidar-IMU SLAM》的形式，于2026年发表在《IEEE Transactions on Automation Science and Engineering》期刊第23卷上。
二、 研究的学术背景与目标
本研究的科学领域为机器人学中的同步定位与地图构建技术，特别是针对激光雷达（LiDAR）与惯性测量单元（IMU）融合的SLAM系统。
研究背景： 在未知环境中运行的移动机器人，LiDAR SLAM是实现自主定位与地图构建的基础技术。现有的主流LiDAR SLAM方法，无论是基于滤波（如FAST-LIO）还是基于优化（如LIO-SAM）的框架，其性能在很大程度上依赖于扫描（Scan）到地图（Map）匹配所构建的观测约束。这些方法通常采用参数化的显式局部几何模型，如拟合平面、二次曲面或高斯分布，来形成几何约束。在高度结构化的室内或城市环境中，这类方法表现良好。
然而，在森林、越野地形等非结构化环境中，大量存在的树干、杂草、崎岖地面等结构难以用简单的参数化模型精确表达。这导致两个关键问题：1) 可靠约束数量减少：由于严格平面区域稀少，基于点对面（point-to-plane）等模型的匹配成功次数下降；2) 引入建模偏差：在近似平面或杂乱区域强行拟合平面会引入误差，降低观测的一致性和定位精度。因此，传统的显式观测模型在非结构化场景中，往往难以在观测充分性和建模保真度之间取得平衡。
尽管近期研究探索了基于学习的方法和隐式神经表示来提升几何表达能力（如NeRF-LOAM, SHINE-Mapping），但这些方法通常依赖于端到端学习或在线优化，导致计算和内存开销巨大，难以在纯CPU平台上实现实时性能，并且降低了其在经典SLAM流程中的可解释性和模块化程度。
研究目标： 针对上述挑战，本研究旨在提出一种新颖的观测建模方法，以提升LiDAR SLAM在非结构化环境中的鲁棒性和精度，同时保持传统模型驱动SLAM框架的效率、可解释性和模块化优势。具体而言，研究目标不是替代经典的LiDAR-IMU SLAM流程，而是改进其核心的扫描到地图的观测建模环节。
三、 研究的详细工作流程与方法
本研究提出了一个完整的激光雷达-惯性SLAM系统，命名为P2V-SLAM。其核心创新在于用“隐式点对体素”观测模型替代传统的显式几何模型。整个工作流程是一个紧密耦合的在线系统，可分为以下几个核心步骤：
1. 系统框架与状态定义： 系统基于迭代误差状态卡尔曼滤波框架构建。机器人状态定义为：位置、姿态（旋转）、速度以及IMU的角速度和加速度偏置。系统通过IMU测量进行状态预测（前向传播）。
2. 隐式体素地图的构建与维护： 这是本方法的基础数据结构。系统将三维空间离散化为体素网格（默认分辨率0.3米）。与VoxelMap等存储平面参数不同，P2V-SLAM为每个体素维护一个“隐式表示”。 * 数据结构： 每个被占用的体素存储一个固定容量的点缓存（存储归一化后的局部点坐标）、一个由“体素编码网络”提取的64维隐式几何特征，以及一个点更新计数器。 * 特征提取： 使用一个轻量级的体素编码网络，其结构类似于PointNet，将体素内的点集通过共享权重的多层感知机和对称最大池化操作，映射为一个固定维度的特征向量。该特征编码了体素内的局部几何分布。 * 事件驱动更新： 为避免频繁计算，隐式特征采用事件驱动策略更新。仅当体素内新增点数超过阈值时，才触发特征重新计算。地图维护线程与状态估计线程异步运行，确保实时性。
3. 隐式点对体素观测的生成： 对于经过运动畸变校正和下采样后的当前激光雷达扫描点（查询点），系统不为其寻找最近的平面，而是执行以下操作以生成观测： * 局部特征聚合： 以查询点为中心，获取其所在的体素及周围3x3x3邻域（共27个）体素的隐式特征。将这些特征与查询点的归一化坐标、相对位置编码等信息拼接，形成一个“查询条件化的体素表示”。 * 残差与不确定性预测： 设计了一个隐式残差预测网络。该网络接收上一步聚合的局部特征，通过一个基于注意力的加权聚合模块，最终输出两个量：1) 一个三维位移残差向量，2) 一个标量不确定性值。这个位移残差可以被理解为将当前查询点“推”向与局部隐式几何一致的位置所需的修正量。不确定性值则表征了该预测的置信度。
4. 基于迭代误差状态卡尔曼滤波的状态更新： 将上一步对每个有效查询点预测的位移残差和不确定性，作为观测方程融入IESKF框架。 * 观测模型定义： 定义隐式观测方程为：在真实状态下，预测的位移残差应为零。即，如果位姿估计正确，那么激光点云经过该位姿变换到地图坐标系后，其位置应与通过隐式特征预测的“理想位置”一致。 * 线性化与融合： 将非线性观测方程在当前状态估计处线性化，计算其关于误差状态的雅可比矩阵。预测的不确定性经过缩放后，作为该观测的协方差矩阵。随后，系统将所有有效的隐式点对体素观测（通常有上千个）一起输入IESKF，求解最优的误差状态更新量，从而校正机器人的位姿、速度等状态。 * 核心区别： 这是方法的关键。传统方法（如VoxelMap）是“先拟合模型（平面），后计算点到模型的距离作为残差”。而P2V-SLA方法是“直接根据局部几何特征，通过神经网络回归出残差和它的不确定性”。它绕过了显式模型拟合这一可能产生误差的步骤。
5. 网络训练与数据准备： 为训练体素编码网络和隐式残差预测网络，研究团队采集了7个高精度真实场景的离线点云地图作为训练数据。 * 标签生成： 将离线地图体素化，在每个体素内随机采样查询点，并添加高斯噪声。对于每个查询点，从其在高精度地图中的近邻点，通过局部平滑二次曲面拟合，计算出一个点到面的距离和法向，以此作为监督信号（伪标签）。值得注意的是，这个拟合仅用于生成稳定的训练标签，网络并不被强制学习二次曲面模型。 * 训练策略： 采用端到端方式联合训练两个网络。损失函数包含两项：1) 平滑L1损失，用于约束预测的位移残差向量与伪标签的一致性；2) 负对数似然损失，用于约束预测的不确定性，使得网络对预测误差大的样本输出更高的不确定性。训练时还引入了旋转扰动、点云稀疏化、噪声注入等数据增强策略，以缩小离线训练数据与在线运行数据之间的分布差距。
四、 研究的主要结果与分析
实验评估涵盖了公开数据集和自采集数据，从定位精度、地图一致性、约束数量、鲁棒性和运行效率多个维度验证了P2V-SLAM的性能。
1. 在公开数据集上的定位精度： 在Botanic Garden、LiLi、M3DGR、Tiers等多个以植被、自然地形为主的非结构化环境公开数据集上，将P2V-SLAM与LIO-SAM、FAST-LIO、Point-LIO、VoxelMap、PV-LIO等代表性方法进行了对比。评价指标为绝对轨迹误差的均方根值。 * 结果： P2V-SLAM在绝大多数序列上取得了最好或第二好的性能。例如，在植被茂密的Botanic Garden数据集上，P2V-SLAM的轨迹明显比VoxelMap更接近真实轨迹。定性分析表明，VoxelMap的匹配约束主要集中在地面，而在树冠区域约束稀少甚至存在错误匹配；而P2V-SLAM能在草地、树干、树枝等多种非平面结构上建立有效且一致的约束，从而获得了更优的定位精度。
2. 在自采集数据上的综合性能： 通过自建机器人平台，在花园、草地、树林等真实非结构化场景中采集数据，并使用GPS提供轨迹真值进行定量评估。 * 定位与建图精度： P2V-SLAM在大多数序列上获得了比VoxelMap更低的绝对轨迹误差。通过平均地图熵评估地图一致性，P2V-SLAM也 consistently 取得了更低的值，表明其构建的地图结构更清晰、一致性更高。 * 有效约束数量： 这是一个关键指标。在VoxelMap中，一个观测被判定为有效的前提是其所在体素能通过平面一致性检验。在非结构化场景中，这导致大量体素被丢弃。实验数据显示，P2V-SLAM产生的有效观测数量是VoxelMap的2到3倍。这直接证明了隐式模型能从复杂几何中提取出更多可用的约束，为状态估计提供了更丰富、更稳定的信息源，这是其鲁棒性提升的根本原因之一。
3. 在弱几何约束场景下的鲁棒性验证（支柱实验）： 设计了一个极端实验场景：机器人沿一排光滑圆柱形支柱运动，并主动将激光感知距离限制在5米内，以抑制远处可能存在的平面结构（如墙壁、地面）。 * 结果： 在受限感知条件下，VoxelMap估计的机器人速度出现明显波动，且重建的支柱形状严重失真、发散。而P2V-SLAM仍能保持稳定的速度估计，并重建出形状一致的圆柱体。这强有力地证明了隐式点对体素模型能够有效利用弯曲表面等非平面几何信息，在显式平面模型完全失效的场景下仍能维持可靠的定位与建图。
4. 运行效率分析： 尽管引入了神经网络，但通过精心设计（轻量级网络、ONNX CPU推理、多线程并行、异步地图更新），整个系统在纯CPU平台（AMD 7840H）上实现了实时运行。 * 耗时分析： 在10Hz激光雷达输入频率下，平均每帧处理时间约为50毫秒，满足实时性要求。性能分析表明，残差预测是主要的计算瓶颈，占总运行时间的约95%，但仍在可接受范围内。
5. 消融实验： 研究通过消融实验验证了关键设计选择的有效性。 * 体素尺寸： 实验了0.2米至0.5米的不同分辨率，发现0.3米在精度和稳定性上取得了最佳平衡。 * 不确定性建模： 移除NLL损失项（即网络不预测不确定性）的变体，其定位精度在多数序列上有所下降。这表明学习到的不确定性能够为IESKF提供更合理的观测权重，有利于状态估计。 * 训练数据分布： 在基线训练数据中加入与测试集同场景（域内）数据后，在该场景性能提升，但在其他场景性能略有下降。这揭示了学习到的隐式模型对训练数据分布具有一定的敏感性，也指出了提升跨场景泛化能力是未来的研究方向。
五、 研究的结论、意义与价值
结论： 本研究成功提出并实现了一种用于激光雷达SLAM的隐式观测建模方法。该方法通过隐式残差预测网络，直接从局部体素几何特征回归扫描点到地图的位移残差及不确定性，避免了传统方法依赖显式几何模型拟合的局限性。基于此模型构建的P2V-SLAM系统，能够在非结构化环境中提供更丰富、更稳定的有效观测约束，从而显著提升了在森林、自然地形等复杂场景下的定位精度和系统鲁棒性，同时保持了在CPU平台上的实时运行能力。
价值与意义： * 科学价值： 为SLAM中的观测建模问题提供了一种新的思路，弥合了基于学习的隐式表示与经典模型驱动状态估计框架之间的鸿沟。它证明了将神经网络作为“智能传感器”或“特征提取与回归器”嵌入传统滤波框架是可行且高效的，为SLAM算法的设计开辟了新的路径。 * 应用价值： 直接解决了林业巡检、野外勘探、农业机器人、灾区救援等非结构化环境应用中，激光雷达SLAM系统性能下降的实际难题。论文开源的完整系统代码和训练流程，有助于推动相关领域的学术研究和工程应用。 * 重要观点： 研究强调了在SLAM系统中保持模块化、可解释性和实时性的重要性。P2V-SLAM没有采用“黑箱”式的端到端位姿学习，而是选择用神经网络增强SLAM流程中最需要改进的“观测模型”模块，这种设计哲学对推动学习与传统机器人学方法的结合具有借鉴意义。
六、 研究的亮点
方法新颖性： 首次提出“隐式点对体素”观测模型，用数据驱动的隐式回归完全替代了基于参数化几何模型拟合的显式残差构建方式，是SLAM观测建模领域的一项实质性创新。
性能提升显著： 在多个具有挑战性的非结构化环境数据集上，定位精度达到或超越了当前主流方法，尤其是在弱平面约束场景下展现出了独特的优势。
工程实现高效： 成功将神经网络推理集成到实时SLAM循环中，并通过一系列优化（轻量化网络、异步处理、CPU部署）确保了系统在资源受限平台上的实用性，证明了方法的可行性。
系统开源： 作者开源了完整的SLAM系统代码和训练代码，有利于社区的验证、复现和进一步发展，体现了良好的学术实践。
七、 其他有价值内容
研究在附录中提供了额外的参数敏感性分析（如体素内点数k、最小点阈值nmin对性能和效率的影响）和可视化分析（如在不同几何类型体素上的残差预测、对初始位姿扰动的敏感性分析），这些内容为理解方法细节和进行工程调参提供了有价值的参考。特别是敏感性分析显示，该方法对IMU预积分提供的初始位姿（平移±0.2米，旋转±2度）具有足够的容忍度，保证了其在真实系统中的实用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问