ActiveSplat: 基于主动高斯溅射的高保真场景重建

分享自：
ActiveSplat: 基于主动高斯溅射的高保真场景重建

期刊:IEEE Robotics and Automation LettersDOI:10.1109/LRA.2025.3580331
学术研究报告：基于主动高斯溅射的高保真场景重建系统ActiveSplat
一、 研究团队与发表信息
本研究由来自北京理工大学和清华大学多个研究团队的学者合作完成。主要作者包括 Yuetao Li（李悦涛）、Zijia Kuang（邝子嘉）、Ting Li（李婷）、Qun Hao（郝群）、Zike Yan（颜子轲）、Guyue Zhou（周谷越）、Shaohui Zhang（张少辉）。其中，Yuetao Li和Zijia Kuang为共同第一作者，Zike Yan和Shaohui Zhang为共同通讯作者。研究论文“ActiveSplat: High-fidelity Scene Reconstruction through Active Gaussian Splatting”已获《IEEE Robotics and Automation Letters》期刊录用，预印本发布于arXiv，并于2025年6月16日更新。该刊是机器人学与自动化领域的权威期刊，标志着本研究获得了同行的高度认可。
二、 研究背景与目标
本研究的核心领域是机器人自主探索与高保真三维环境重建。随着机器人技术和计算机视觉的发展，对物理世界进行精细化、高保真度的数字化建模需求日益增长，这不仅是实现远程遥操作等沉浸式应用的关键，也是缩小仿真与现实差距、通过逼真模拟推动通用机器人自主性的重要途径。
近年来，以神经辐射场（NeRF）为代表的神经渲染技术显著提升了三维重建和新视角合成的质量。然而，神经隐式表示通常存在优化收敛慢、渲染效率低的问题。3D高斯溅射（3D Gaussian Splatting, 3DGS）技术作为一种新兴的显式场景表示方法，通过高效的栅格化和α混合实现了实时、高质量的渲染，但其性能严重依赖于输入数据的质量和视角覆盖范围。在没有真值监督的数据采集过程中，视角覆盖不足会导致优化过程中的噪声和伪影，进而影响重建质量。
因此，本研究的目标是解决“如何让移动机器人在未知环境中，自主、高效地采集数据，并在线完成高保真度的三维场景重建”这一核心问题。研究团队提出，将高效的3D高斯溅射技术引入主动映射（Active Mapping）框架，构建一个集在线建图、视点选择和路径规划于一体的闭环系统。该系统旨在通过智能化的自主探索策略，最大化场景覆盖的完整度（Completeness）和重建的准确性（Accuracy），从而克服被动数据采集带来的视角缺陷问题。
三、 研究流程与方法细节
ActiveSplat系统是一个完整的感知-行动闭环框架。其核心流程可分解为以下五个关键步骤，它们在一个统一的框架下协同工作：
1. 混合地图构建与更新 这是系统的感知核心。研究提出了一种创新的混合地图表示，它包含两个互补的部分： * 密集高斯地图：采用3D高斯（3D Gaussian）作为场景表示的基本单元。每个高斯单元由中心位置、协方差（定义其各向异性的形状）、颜色和不透明度参数化。系统利用RGB-D图像流，通过可微分的渲染过程（如式(2)、(3)、(4)所示），以基于光度（RGB）和几何（深度）的损失函数（式(5)-(7)）在线优化这些高斯参数。新观测区域（根据累积不透明度低于阈值或深度存在显著差异判断，式(8)）会动态初始化新的高斯单元，而过小或不透明度接近零的高斯则会被剔除。这一过程类似于一个实时的、基于高斯溅射的同步定位与建图系统。 * 稀疏拓扑地图：为了高效进行决策和规划，系统同时维护一个场景的自由空间抽象。具体做法是：利用当前稠密高斯地图，通过设置一个长焦距进行自上而下的正射投影渲染，生成一个俯瞰图。从该图中，可以提取出障碍物区域（地面以上、机器人高度以内的不透明区域）和可行走的工作空间（地面层，排除障碍物）。在此工作空间基础上，生成Voronoi图。该图的边缘（Voronoi Edge）是距离两侧障碍物等距的路径，节点（Voronoi Node）则是路径的端点或交叉点。Voronoi图作为工作空间的拓扑骨架，提供了稀疏但完整的可达位置集合。
这种混合表示的意义在于：稠密高斯地图提供了丰富的几何与外观信息，用于评估重建质量和进行视点选择；而稀疏的Voronoi拓扑地图则用于高效、安全的路径规划和全局探索引导。二者结合，实现了对环境的自适应精细度感知与决策。
2. 主动视点选择 这是系统的决策大脑，目标是在Voronoi图提供的有限候选位置中，决定下一步去哪里看以及看什么方向。研究采用了“位置与旋转解耦选择”的策略。 * 位置候选生成：所有未访问或部分访问的Voronoi节点均被视作潜在的观察位置候选。这保证了位置的全局可达性和安全性（距离障碍物最远）。 * 旋转候选生成：在每一个节点位置，系统使用三个虚拟相机渲染一个全景图（水平视场角150°，垂直120°）。通过分析全景图中的“低可见度区域”（即累积不透明度低的像素块），使用DBSCAN聚类算法找出这些区域的中心，其像素坐标即对应了最有价值的观察偏航角（Yaw）和俯仰角（Pitch）。 * 视点评分与确定：为每个候选节点计算一个综合评分（式(10)）。评分综合考虑了四个因素：1) 2D不可见区域面积（从全景图计算）；2) 3D凸包体积（将2D不可见区域的像素反向投影到3D空间，计算其凸包体积，以更准确估计未探索空间的规模）；3) 该节点是否曾被访问过；4) 该节点是否在机器人当前感知范围内。此外，系统还维护一组“高损失样本”（式(9)），即那些渲染深度与观测深度差异大的区域，这些区域标识了当前地图中几何不确定性高的部分。最终，系统会选择分数最高的节点作为下一个目标位置，并在到达该位置后，根据全景图和高损失样本的引导，选择最优的观察方向进行旋转观察。这种解耦策略极大地降低了搜索空间维度，同时保证了观测的全面性。
3. 基于Voronoi图的分层路径规划 为了解决在多房间环境中，贪婪选择高分节点可能导致重复遍历和局部覆盖不足的问题，研究提出了分层规划策略。 * 子区域划分：根据Voronoi图的拓扑结构，动态地将整个图聚合成若干子区域，其中一个子区域被定义为机器人当前所在的“局部区域”。 * 局部-全局目标选择：系统优先进行局部区域的精细探索。只有当局部区域内所有节点的评分都低于一个阈值（意味着已充分探索）后，系统才会进行全局规划，选择局部区域之外评分最高的节点作为下一个目标。全局评分不仅考虑覆盖分数，还考虑了旅行距离成本。这种策略确保了机器人首先对一个局部区域进行彻底勘探，然后再移动到下一个区域，从而有效减少了冗余路径，提高了整体探索效率（如图5所示）。
4. 系统实现与后处理 * 启动：由于相机初始视场有限，系统启动时会强制机器人进行原地360度旋转，获取完整的初始环境视图。 * 路径执行：一旦目标位置确定，系统使用Dijkstra算法在Voronoi图上计算最短路径。对于图中的多连接节点（即交叉路口），系统会强制机器人在到达时进行旋转观察，以做出更明智的决策。 * 后处理优化：与一些为实时性而牺牲模型容量的NeRF-SLAM系统不同，高斯溅射的参数空间是一致的。因此，在在线探索结束后，可以利用存储的关键帧数据，对在线构建的地图进行后处理优化，例如应用自适应密度控制、深度和法线正则化等，进一步提升重建的几何和外观质量（如表V所示）。
5. 实验设计与评估 为了验证系统性能，研究在模拟和真实环境中进行了广泛实验。 * 模拟实验：在视觉逼真的Gibson和Matterport3D数据集上，使用Habitat仿真器进行定量评估。遵循之前工作的协议，将场景分为小型（少于5个房间）和中等规模（5-10个房间）两类。机器人执行离散动作（前进、转向等），在有限的步数内（小场景1000步，中场景2000步）进行探索。 * 评估指标：主要评估三类指标：1) 探索覆盖度：使用完成率（%）和完成误差（cm）。2) 渲染质量：对于RGB渲染，使用峰值信噪比（PSNR）、结构相似性（SSIM）和学习感知图像块相似度（LPIPS）；对于深度渲染，使用深度L1误差（cm）。3) 探索效率：评估机器人探索的路径长度。 * 真实世界部署：将系统部署在配备Azure Kinect RGB-D传感器的全向移动机器人（Agile-X Ranger Mini）上。相机位姿通过一个并行的基于线的SLAM系统进行估计。针对真实环境调整了参数，成功实现了对办公室等室内环境的自主、渐进式高保真重建（如图7所示）。 * 对比与消融实验：与前沿的主动探索方法（如FBE、UPEN、ANM、NARUTO、ANM-S）进行了对比。同时，设计了详尽的消融实验，以验证各个模块（如分层规划、覆盖度评估策略、解耦视点选择等）的有效性。
四、 主要研究结果与分析
实验结果表明，ActiveSplat系统在多个方面均取得了优异的性能。
探索覆盖度全面领先：如表I所示，在Gibson和Matterport3D数据集上，ActiveSplat在限定步数内达到了最高的平均场景完成率（分别为92.24%和92.48%）和最低的完成误差（分别为2.43 cm和2.84 cm），全面超越了所有对比方法。特别是，尽管ANM-S同样采用了拓扑引导探索，但ActiveSplat凭借其分层规划策略，更好地平衡了局部重建精细度和全局场景覆盖，从而取得了更优的结果。详细的分场景结果（表VIII, IX）也显示了方法的鲁棒性。
重建与渲染质量优异：如图4和补充材料表VII所示，与基于NeRF的主动建图系统ANM-S相比，ActiveSplat生成的新视角合成图像在PSNR、SSIM和LPIPS等指标上表现更好，图像边缘更锐利，纹理更丰富。这得益于高斯溅射表示本身具有更快的收敛速度和更高的渲染质量潜力。后处理优化进一步显著提升了重建质量（表V），例如在Gibson Denmark场景上，经过2DGS后处理，测试集的PSNR从21.72 dB提升至27.58 dB，深度L1误差从9.01 cm降至7.56 cm。
各模块有效性的验证：
探索策略消融（表II）：随机选择Voronoi节点（Random）的策略保证了覆盖率但效率低下；仅贪婪选择节点位置而忽略旋转（Position）的策略效率有所提升，但完整度有限；引入旋转选择的解耦策略（Viewpoint）显著提升了完整度；最终，结合多连接节点处理和分层规划（Ours）的方法取得了最佳平衡。这证明了分层规划和精细的视点决策对效率-精度权衡至关重要。
分层规划消融（表III，图5）：在探索路径的不同阶段（25%， 50%， 75%， 100%），采用分层规划（Ours）的系统在多数情况下都达到了比无分层规划（w/o HP）更高的完成率，尤其是在后期。图5直观展示了无分层规划的贪婪策略会导致大量重复轨迹（紫色线条），而有分层规划的策略则能更系统地覆盖区域，路径更简洁高效。
覆盖度评估消融（表IV）：单独使用2D不可见区域面积（Visibility only）或3D凸包体积（Convex hull only）进行节点评分，效果均不如将二者加权结合的方法（Ours）。如图8所示，靠近小片未探索区域的节点可能2D分数高但3D体积小，而靠近大片开阔未探索区域的节点则3D体积分数高，结合两者能做出更全面的判断。
后处理分析（表V）：结果表明，使用深度损失进行后处理优化，不仅能提升几何精度（降低深度L1误差），还能增强地图的泛化能力（测试集质量提升更明显）。2DGS的后处理方式在测试集上表现略优于3DGS，显示了其更好的泛化性。
系统性能实时：如表VI所示，系统的各个模块（建图、工作空间提取、Voronoi图生成、子区域划分、旋转选择、位置选择、路径规划）处理单帧数据的平均时间总和约为160毫秒（其中可视化器可选，占67毫秒），在无头模式下可达约8 FPS，具备实时运行能力。
五、 研究结论与意义
本研究成功提出了ActiveSplat，一个基于主动高斯溅射的高保真场景自主重建系统。通过创新性地结合稠密的高斯地图与稀疏的Voronoi拓扑图构成混合表示，并设计了解耦的视点选择方法和基于拓扑的分层规划策略，该系统在机器人自主探索与场景重建任务中，实现了探索效率、覆盖完整度与重建质量之间的优异平衡。
其科学价值在于：1) 为基于可微分渲染的主动建图领域提供了一种高效、高质量的解决方案，证明了显式高斯表示在此类任务中的巨大潜力；2) 提出了将稠密感知与稀疏决策紧密结合的系统框架，为处理类似“感知-规划”闭环问题提供了新的思路；3) 详尽的消融实验为相关研究提供了宝贵的模块有效性分析。
其实用价值在于：1) 系统能够以实时或近实时速度运行，为机器人自主导航、精细操作等任务提供了高质量的环境模型；2) 生成的高保真地图可用于逼真的仿真、数字孪生、远程沉浸式体验等应用；3) 在真实机器人平台上的成功部署证明了其实际应用的可行性。
六、 研究亮点与创新点
首创的混合地图表示：将用于高质量渲染和密集预测的3D高斯地图，与用于高效、安全路径规划的Voronoi拓扑图紧密结合，形成了一个优势互补的表示框架。
高效的解耦视点选择策略：将连续的视点选择问题分解为在离散Voronoi节点上选择位置，以及在节点上基于全景图分析选择旋转角度两个步骤，大幅降低了决策空间的复杂度。
基于拓扑的分层规划：创新性地利用Voronoi图的拓扑特性进行动态子区域划分，并实施“先局部精细，后全局推进”的规划策略，有效解决了多房间环境中探索路径冗余和局部覆盖不足的难题。
统一的覆盖度评估方法：综合使用2D渲染可见性和3D凸包体积来量化未探索区域，为视点评分提供了更准确、更全面的依据。
完整的系统集成与验证：不仅提出了算法，还构建了完整的软硬件系统，并在大规模标准数据集和真实物理机器人平台上进行了全面、深入的定量与定性评估，证明了其有效性和实用性。
七、 其他有价值的内容
研究在讨论部分指出了未来的工作方向：1) 将激光雷达（LiDAR）集成到基于高斯溅射的SLAM系统中，以提升在大规模场景中的跟踪鲁棒性和几何重建精度；2) 探索该系统在终身导航、移动操作等更复杂机器人自主任务中的应用。这些方向为后续研究提供了清晰的指引。
ActiveSplat是一项在机器人主动感知与高保真重建交叉领域具有重要意义的工作，其系统性的设计、严谨的实验和出色的性能，为该领域的发展树立了新的标杆。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问