过去、现在与未来的同步定位与建图：迈向鲁棒感知时代

分享自：
过去、现在与未来的同步定位与建图：迈向鲁棒感知时代

期刊:ieee transactions on roboticsDOI:10.1109/tro.2016.2624754
本文文档为发表于IEEE Transactions on Robotics期刊2016年12月第32卷第6期的一篇论文，标题为“Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age”。作者为Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif, Davide Scaramuzza, José Neira, Ian Reid, 和 John J. Leonard。这是一篇关于即时定位与地图构建（SLAM）领域的综述与观点论文，属于类型b。该文章并非报道一项单一的原创性研究，而是对该领域进行全面的回顾、现状评估与未来展望。
本文旨在系统性地梳理即时定位与地图构建技术自诞生以来近三十年的发展历程，审视其当前状态，并前瞻性地指出未来的核心挑战与研究趋势。作者们认为，SLAM正从最初的“经典时代”（1986-2004）和“算法分析时代”（2004-2015），迈向一个全新的“鲁棒感知时代”。论文不仅是对现有知识的汇总，更是一份立场声明和面向SLAM用户的教程，旨在通过批判性的视角勾勒出仍待深入研究的开放性问题与新兴前沿。
SLAM的本质与核心价值：从两个核心问题谈起 在论文引言部分，作者首先通过回答两个在机器人学术会议上反复引发讨论的问题来阐明SLAM的核心价值。第一个问题是“自主机器人真的需要SLAM吗？”。作者给出三重回答：首先，现代最先进的视觉-惯性里程计（VIN）本身就是SLAM研究的直接产物，可视为一个不启用回环检测模块的简化SLAM系统。其次，SLAM通过回环检测（loop closure）理解环境的真实拓扑结构，并能利用地图中的度量信息来预测和验证未来的观测，这是对抗错误数据关联和感知混淆的关键机制，仅靠拓扑定位难以实现。第三，许多应用（如环境勘探、结构检查）明确需要一个全局一致的（globally consistent）地图。因此，SLAM对于需要长期、大规模、高精度环境感知的自主机器人系统至关重要。
第二个问题是“SLAM问题解决了吗？”。作者认为，这个问题只有在明确了具体的机器人平台、环境条件和性能要求后才能有答案。例如，对于装备轮式编码器和激光雷达、在二维室内环境中运行并满足一定精度与鲁棒性要求的系统，SLAM已基本成熟并应用于工业界。然而，对于机器人运动速度快、环境高度动态化或要求极低延迟闭环控制等挑战性场景，当前的SLAM算法仍存在很大不足，需要大量基础研究。
现代SLAM系统的标准架构：前端与后端 论文第二部分详细剖析了现代SLAM系统的标准解剖结构，确立了基于因子图（factor graphs）的最大后验概率（MAP）估计作为当前事实上的标准SLAM公式。系统通常分为两个主要部分：前端（front end）和后端（back end）。
前端负责将原始传感器数据抽象为适用于估计的模型。这包括特征提取、数据关联（将观测与地图中的特定地标或状态变量匹配），并提供非线性优化的初始猜测。数据关联又分为短期数据关联（如视觉特征的帧间跟踪）和长期数据关联（即回环检测）。前端的设计高度依赖于传感器类型（如相机、激光雷达、惯性测量单元）。
后端则基于前端提供的抽象数据（如位姿约束、地标观测）进行推理。MAP估计的SLAM后端通常被表述为一个非线性最小二乘问题，并利用因子图模型来优雅地表示变量（如机器人位姿、地标位置）与因子（观测约束、先验）之间的依赖关系。图模型的结构直接决定了求解时所涉及线性系统的稀疏性。现代SLAM求解库（如gtsam， g2o）利用这种稀疏性，采用高斯-牛顿或列文伯格-马夸尔特等迭代线性化方法，结合高效的线性求解器（如Cholesky分解、共轭梯度法），能够实时处理成千上万的变量。这种基于优化的方法（也称为全平滑、图优化SLAM）已被证明在精度和效率上优于早期的基于扩展卡尔曼滤波（EKF）等滤波方法，尽管在某些特定设计良好的EKF系统中（如多状态约束卡尔曼滤波器MSCKF）也能达到先进水平。
迈向鲁棒感知时代：长期自主性的核心挑战 论文第三、四、五、六部分围绕作者提出的“鲁棒感知时代”的四大关键要求展开论述，深入探讨了当前面临的核心挑战与开放性问题。
长期自主性 I：鲁棒性
核心挑战：数据关联错误（特别是回环检测中的误报，即错误的闭环）是导致SLAM系统失败的主要算法原因。此外，动态环境（包含移动物体）、季节性变化以及恶劣条件（如水下）都给鲁棒感知带来了巨大困难。
现有工作：前端通过词袋模型（bag-of-words）、序列匹配等技术提升回环检测的可靠性，并通过几何验证（如RANSAC）来验证候选闭环。后端则发展了一系列对异常值具有鲁棒性的技术，例如在优化过程中识别并剔除导致较大残差的错误约束，或者利用里程计一致性来先验地检测异常闭环。
开放问题： 故障安全与恢复：当前鲁棒SLAM技术依赖于非凸优化，对初始猜测敏感，且单个异常值可能导致估计质量下降并引发连锁反应，系统缺乏对即将发生的故障（如退化、异常值积累）的感知能力以及从中恢复的有效机制。
硬件故障应对：传感器性能退化（如噪声模型变化、偏差漂移）与SLAM中使用的模型不匹配，会导致估计误差。如何在线检测传感器性能退化并自适应调整噪声统计参数，是一个关键问题。
度量重定位：外观方法能在不同季节或光照条件下进行拓扑识别，但精确的度量重定位（估计相对位姿）仍主要依赖特征方法。开发在极端外观变化下仍能工作的特征描述子或结合轨迹匹配等空间信息的方法是一个挑战。
时变与非刚性地图：大多数SLAM方法基于静态和刚性世界假设。处理长期变化、环境非刚性变形（如软物体）以及实时生成“全地形”地图是尚未充分探索的领域。
自动参数调优：SLAM系统（尤其是数据关联模块）需要大量参数调优。如何让SLAM系统在任意场景下“开箱即用”，实现参数自适应，是实际应用的关键。
长期自主性 II：可扩展性
核心挑战：在长期、大规模操作中，因子图的规模会无限增长，受限于机器人的计算和内存资源。
现有工作： 稀疏化：通过信息论准则添加非冗余节点，或对要边缘化的节点计算其稀疏近似（如GLC因子， NGS方法），以及采用连续时间轨迹表示（如B样条、高斯过程）来减少参数数量。
外存与并行SLAM：将因子图分割为子图，通过分层优化或并行处理（如局部优化与全局优化交替）来分布计算负载。
分布式多机器人SLAM：分为集中式（各机器人将信息发送至中心站融合）和分布式（机器人通过局部通信就共同地图达成共识）两类。DDF-SAM等基于高斯边缘信息交换的方法是代表，但面临通信开销大和线性化点一致性维护复杂的问题。
开放问题： 地图表示与存储：大规模长期运行时，如何高效存储地图（点云、体素地图、特征描述子等非常消耗内存）是一个问题。地图压缩和高效表示是需要研究的方向。
学习、遗忘与记忆：如何决定地图信息的更新频率？哪些过时信息可以安全丢弃？能否将部分地图“卸载”并在需要时召回？这些任务依赖的决策机制尚缺乏理论基础。
鲁棒的分布式建图：多机器人SLAM中，处理虚假测量（如错误的跨机器人闭环）更为困难，因为机器人可能没有共同的参考系，且只能基于局部信息做出判断。
资源受限平台：如何将SLAM算法适配到计算资源严重受限的平台（如微型飞行器、手机）？需要设计能够优雅地在精度和计算成本之间进行权衡的算法。
表征 I：度量地图模型
分类与比较：论文系统回顾了从稀疏到稠密、从低级到高级的各种度量地图表示方法： 稀疏路标表示：以可区分特征点为主，成熟且高效，但在特征稀少或重复纹理环境中可能失效。
低级稠密表示：包括点云、面元（surfels），以及基于直接法从像素强度恢复的稠密模型。视觉上吸引人，但内存消耗大，缺乏高层理解。
边界与空间划分表示：如基于平面、网格模型、隐式表面（如TSDF截断符号距离函数）、体素网格和八叉树。更适合路径规划、避障和物理交互。
高级对象级表示：将环境建模为物体和实体。包括参数化基元实例（如圆柱体、立方体）、扫描表示、构造实体几何（CSG）等。这些来自CAD和计算机图形学的方法在SLAM中尚未广泛应用，但前景广阔。
开放问题： SLAM中的高级表达性表征：当前主流的点云和TSDF表征内存效率低且缺乏高层语义。使用更紧凑、更高层的表征（如参数化基元）有望实现地图压缩、促进数据关联和语义理解，并支持对遮挡和物理属性的推理。
最优表征：如何根据任务和环境复杂度来选择“最优”的地图表征？需要建立一个考虑领域（可表示的对象集）、简洁性、创建难度和应用有效性的评估框架。
自动自适应表征：理想情况下，机器人应能根据任务和环境复杂度自动选择和调整其地图表征，而不是由设计者固定。这将对长期导航产生重大影响。
表征 II：语义地图模型
与拓扑SLAM的区别：语义映射关注为几何实体关联语义概念（如“厨房”、“椅子”），而拓扑映射关注识别去过的地方（place recognition）而不关心其类别。
研究范式： SLAM辅助语义：先用经典SLAM构建几何地图，后处理进行语义分割和分类。
语义辅助SLAM：利用识别出的已知物体或语义类别（其几何先验已知）来改进地图估计和定位精度。
联合SLAM与语义推理：在统一的框架中同时估计几何状态和语义标签，相互促进。
开放问题： 一致的语义-度量融合：如何将来自不同时间点、具有不确定性的语义信息与度量信息在统一的概率框架（如因子图）中一致地融合，是亟待解决的问题。
超越分类的语义映射：语义概念应扩展到功能性属性（如“可坐的”、“可移动的”）以及环境中不同实体间的交互关系，以支持高层次的人机交互。
未知、感知与适应：机器人应能发现新物体、新类别，通过与环境和人类互动学习新属性，并适应环境的缓慢或突然变化。
基于语义的推理：如何让机器人像人类一样，主要利用语义概念（而非精确的度量细节）来高效、准确地进行定位和建图？例如，识别出一辆汽车后，应能推断其下方被遮挡的地面是平面，并在汽车移动时，高效地更新整个汽车实体的位姿，而非逐个更新体素。
SLAM的新理论工具与主动SLAM 论文第七部分讨论了为SLAM算法建立性能保证的理论进展。现代基于因子图优化的SLAM是一个非凸问题，迭代优化容易陷入局部极小值，导致错误的估计。近年来的理论工作揭示了问题结构：在特定条件（强对偶性）下，最大似然估计是唯一的，并且可以通过凸的半定规划（SDP）全局求解。基于拉格朗日对偶性的理论还催生了验证技术，能够判断一个给定的SLAM估计是否全局最优，这对于安全关键应用中的故障检测与恢复至关重要。开放问题包括：将现有理论保证推广到更一般的因子图和噪声模型；确立强对偶性成立的先验条件；以及设计能够抵抗异常值并具备可验证性的全局方法。
论文第八部分简要探讨了主动SLAM（Active SLAM），即机器人通过有意识地控制自身运动来改进建图与定位结果。这是一个将SLAM与决策制定相结合的广阔领域，由于篇幅所限，本文未做详细展开，但指出了其重要性。
结论与意义 本文是一篇对SLAM领域具有里程碑意义的深度综述。它不仅清晰地梳理了技术发展的脉络和现状，更重要的是，前瞻性地提出了“鲁棒感知时代”的愿景及其四大支柱：鲁棒性能、高层理解、资源感知和任务驱动感知。通过对长期自主性、地图表征、语义理解、理论保证和主动感知等多个维度的深入剖析，论文系统地勾勒出该领域未来十年乃至更长时间内的核心研究挑战与方向。它强调了SLAM作为一个交叉学科，需要从计算机视觉、计算机图形学、控制理论等领域汲取养分，并推动跨学科的融合发展。对于SLAM领域的研究者、从业者以及新进入者而言，本文既是一份宝贵的学习教程，也是一份指引未来探索方向的重要路线图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问