分享自:

基于运动一致性和特征过滤的复杂动态环境下视觉-惯性SLAM改进方法

期刊:IEEE Sensors JournalDOI:10.1109/JSEN.2024.3525063

这是一篇类型a(单篇原创研究论文)的学术报告,我将从七个方面详细介绍Xuanzhi Peng等人在《IEEE Sensors Journal》发表的视觉-惯性SLAM改进研究。


一、作者、机构与发表信息

本文由Xuanzhi Peng(汕头大学)、Pengfei TongXuerong Yang(中山大学)、Chen Wang(中国科学院自动化研究所)、An-min Zou(汕头大学)共同完成,发表于《IEEE Sensors Journal》2025年2月刊(第25卷第4期)。论文标题为《IDMF-VINS: Improving Visual-Inertial SLAM for Complex Dynamic Environments with Motion Consistency and Feature Filtering》。


二、学术背景与研究目标

科学领域:本研究属于动态环境下的视觉-惯性同步定位与建图(VI-SLAM)领域,旨在提升SLAM系统在动态场景中的鲁棒性和定位精度。

研究动机:传统SLAM算法(如ORB-SLAM、VINS-Mono)在静态环境中表现良好,但在真实动态场景(如行人密集的商场、街道)中易因动态物体干扰导致定位失败。现有方法依赖语义分割或单纯剔除检测框内特征点,前者计算成本高,后者损失了有效静态特征。

目标:提出一种融合运动一致性检查特征过滤的新方法,通过动态特征点精准分类与状态估计,平衡计算效率与精度。


三、研究方法与流程

1. 系统框架设计

IDMF-VINS基于VINS-Mono改进,包含三个并行线程:
- 目标检测线程:采用YOLOv5实时识别动态物体。
- 特征跟踪线程:结合光流追踪、深度聚类和异常值过滤,保留背景静态特征点。
- 状态优化线程:融合视觉和IMU数据,通过非线性优化计算最优位姿。

2. **动态特征点检测的核心技术

(1)运动一致性双约束(Motion Consistency Check)
  • 步骤
    1. 极线几何约束:计算匹配特征点到极线的距离(dvision),通过RANSAC求取基础矩阵(Fundamental Matrix)。
    2. 重投影误差约束:利用IMU预积分数据估计帧间运动变换,计算特征点重投影误差(rk)。
    3. 双阈值判定:若dvision > εrk > ε,则标记为动态点(算法1)。
  • 创新性:传统方法仅依赖语义分割或几何约束,而双约束机制提升了动态点检测的鲁棒性。
(2)深度聚类与异常过滤(Dynamic Feature Filtering)
  • 步骤
    1. K-means聚类:以目标检测框内特征点深度值为输入,将特征点分为动态和静态两类。
    2. 深度差异放大:计算各点与聚类中心的深度差Δdpi,放大1000倍后设定阈值dthreshold
    3. 过滤策略:保留Δdamplified_pi ≤ dthreshold的点,剔除靠近动态物体的静态异常点。
  • 优势:解决了传统方法因深度接近导致的误分类问题(图2)。

3. 实验设计

  • 数据集
    • OpenLORIS-Scene(22个动态场景序列,包括商场、走廊等)。
    • TUM RGB-D(fr3_walking系列,含快速移动相机和动态行人)。
  • 对比算法:VINS-Mono、ORB-SLAM2、DS-SLAM、Dynamic-VINS。
  • 评估指标
    • 绝对轨迹误差(ATE)相对位姿误差(RPE)的均方根误差(RMSE)。
    • 正确率(CR):系统持续跟踪轨迹的能力。

四、主要实验结果

1. OpenLORIS-Scene数据集

  • 低纹理场景(走廊、家庭):IDMF-VINS的CR达98.9%和97.3%,优于Dynamic-VINS(依赖语义分割),因后者在特征稀疏时失效。
  • 高动态场景(商场):ATE RMSE降至0.7261米,较Dynamic-VINS提升3.3%。
  • 轨迹可视化(图4-6):在快速旋转和视角变化下仍保持稳定,而VINS-Mono出现显著漂移。

2. TUM RGB-D数据集

  • 无IMU数据时:在fr3_walking_xyz序列中,旋转漂移RMSE降低87.5%(相比ORB-SLAM2)。
  • 半球轨迹(fr3_walking_halfsphere):ATE从0.076米降至0.0409米,定位精度提升42.1%。

3. 消融实验(表VI)

  • 去除聚类过滤(CF)模块:ATE从0.7261米增至0.8844米,证明背景特征保留的必要性。
  • 去除概率学习(PL)模块:ATE从0.9534米增至1.6477米,显示运动状态估计的关键作用。

五、研究结论与价值

  1. 科学价值

    • 提出双约束动态点检测深度聚类过滤方法,解决了动态场景中特征误剔除问题。
    • 首次在VI-SLAM中结合目标检测框的几何与运动一致性分析,提升系统在极端动态环境中的稳定性。
  2. 应用价值

    • 适用于自动驾驶、增强现实(AR)等需要实时动态感知的场景。
    • 算法在RTX 3070 GPU上单帧处理时间为5.8571毫秒,满足实时性需求(表VII)。

六、研究亮点

  1. 创新方法

    • 运动一致性双约束(极线几何+重投影误差)动态点检测。
    • 深度聚类与放大差异过滤,避免传统深度阈值法的过剔除问题。
  2. 性能优势

    • 在高动态场景中ATE误差较主流算法降低30%以上。
    • 在无IMU数据时仍保持鲁棒性(TUM RGB-D实验)。

七、其他价值

  • 公开代码复现性高,实验覆盖室内、室外多场景。
  • 提出的模块化设计(如CF、PL)可为后续动态SLAM研究提供通用框架。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com