ActiveGS：基于高斯溅射的主动场景重建

分享自：
ActiveGS：基于高斯溅射的主动场景重建

期刊:IEEE Robotics and Automation Letters
主动高斯泼溅：利用高斯泼溅进行主动场景重建的学术研究报告
第一， 研究作者与发表信息 本研究的作者是 Liren Jin, Xingguang Zhong, Yue Pan, Jens Behley, Cyrill Stachniss 和 Marija Popović。作者分别来自德国波恩大学机器人中心（L. Jin, X. Zhong, Y. Pan, J. Behley, C. Stachniss）和荷兰代尔夫特理工大学微飞行器实验室（M. Popović）。C. Stachniss 同时还隶属于德国拉马尔机器学习和人工智能研究所。此项研究成果以论文“ActiveGS: Active Scene Reconstruction Using Gaussian Splatting”的形式，发表在 IEEE Robotics and Automation Letters 期刊上，被接受于2025年3月，是预印本版本。
第二， 学术背景与研究目标 本研究属于机器人学中的“主动感知与场景重建”领域。随着机器人技术在搜索救援、农业监测、工业巡检等复杂任务中的广泛应用，机器人需要能够自主、高效地探索未知环境并构建精确的三维地图，以支持后续的导航、操作等下游任务。实现这一目标的两大核心挑战是：需要高保真度的地图表示来建模场景的精细几何与纹理细节；以及需要自适应的视角规划策略来高效地采集传感器数据。
传统的主动场景重建框架主要依赖体素网格、网格或点云等表示方法。然而，这些方法的表示通常较为稀疏，难以实现高保真度的重建。近年来，以神经辐射场（Neural Radiance Fields, NeRF）为代表的隐式神经表示展现出了卓越的密集重建能力，但其体积渲染过程计算成本高昂，限制了其在在线增量式建图中的应用。最近兴起的3D高斯泼溅（3D Gaussian Splatting, 3DGS）技术，通过显式的高斯基元来建模场景，并利用高效的差异化光栅化进行渲染，在保证重建质量的同时极大地提升了效率，为在线主动重建提供了新的可能性。
然而，将高斯泼溅整合到主动重建流程中面临两大关键难题：首先，主动重建需要评估地图质量以指导视角规划，但在没有真实数据的情况下评估新颖视角的重建质量非常困难；其次，高斯泼溅基元仅代表被占据的空间，难以区分“未知空间”与“自由空间”，而这对探索和路径规划至关重要。
本研究的目标正是解决这些挑战。研究者们提出了一种名为 ActiveGS 的新型主动场景重建框架。其核心目标是：在有限的资源（如任务时间）内，通过在线主动规划机器人（如配备RGB-D相机的无人机）的视角，获得一个精确的3D场景表示。
第三， 研究流程与实验方法的详细阐述 ActiveGS框架是一个在“建图”与“规划”之间迭代的闭环系统。其工作流程主要包含以下关键步骤：
1. 混合地图表示： 为解决单一高斯泼溅（GS）地图在空间建模上的不足，ActiveGS采用了一种混合地图表示。 * 高斯泼溅地图： 该研究采用了最新的2D高斯泼溅表示方法——高斯面元（Gaussian Surfel），作为其GS地图的核心。每个高斯基元由其中心位置、旋转（四元数）、二维尺度因子、RGB颜色、不透明度以及本研究引入的关键参数——置信度来定义。GS地图负责高质量的场景渲染（RGB、深度、法向图）和几何细节重建。 * 体素地图： 系统同时维护一个粗糙的体素地图，其中每个体素存储空间占用概率。这个地图不追求高精度细节，而是专注于对环境空间的宏观建模，用于识别未探索区域（即未被传感器观测过的空间）以及进行无碰撞路径规划。
2. 增量式地图更新： 当机器人移动到新的规划视点并采集到RGB-D图像及对应位姿（假定定位精确）后，系统同步更新两种地图： * 体素地图更新： 使用新的点云数据，按照OctoMap等经典方法，概率性地更新体素地图的占用状态。 * 高斯泼溅地图更新： 这是更精细化的过程。 * 基元增密： 系统首先在当前视点渲染GS地图的RGB、深度和不透明度图，并与传感器实际测量值进行比较。通过一个二进制掩码公式，识别出渲染不透明度过低、颜色误差过大、或有新几何结构出现在当前预测深度前方的像素区域。在这些区域，系统会将像素反投影到3D空间，生成新的高斯基元，并初始化其参数（位置来自点云，颜色来自RGB像素，法向通过双边滤波的深度图差分估算）。 * 地图优化： 系统利用所有历史采集的RGB-D图像帧（每次迭代选择最近的3帧和随机的5帧）对GS地图进行训练。损失函数结合了光度损失（L1距离）、深度损失（L1距离）以及法向损失（余弦距离+总变差正则化），以同时优化颜色、几何和表面的平滑性。 * 地图精简： 为避免基元无限增长，系统定期进行可见性检查，删除从所有历史视点都不可见（贡献度低于阈值）的高斯基元，从而保持地图的紧凑性。
3. 高斯基元的置信度建模： 这是本研究的一个核心创新点，旨在解决“如何评估GS地图重建质量”的难题。研究者提出了一种基于视点分布的、简单而有效的置信度建模方法。每个高斯基元的置信度 ( k_i ) 由两部分构成： * 观测质量 ( \gamma_i )： 该部分考虑了观测到该基元的视点距离（距离越近权重越高）以及视点方向与基元法向的余弦相似度（方向越正对法向，权重越高）。这反映了观测的“密度”和“正面性”。 * 视点分散度 ( \beta_i )： 该部分衡量所有观测到该基元的视点方向的分散程度。如果所有观测都来自相似方向（例如，只从一个侧面看过），则分散度低，置信度降低；如果观测来自多个不同角度，则分散度高，置信度提高。 最终置信度 ( k_i = \gamma_i \exp(\beta_i) )。这一设计使得那些被从多个不同角度、近距离、正面充分观测的高斯基元获得高置信度，而那些观测稀疏或视角单一的区域（如物体背面、遮挡区域）则被标记为低置信度的欠重建表面。
4. 视点效用计算与规划： ActiveGS的规划器旨在平衡探索（覆盖未知区域）和利用（精细检查欠重建区域）两种行为。 * 探索效用： 基于体素地图，计算从一个候选视点可以看到的未探索体素数量，并将其归一化。 * 利用效用： 基于GS地图，通过快速的光栅化渲染，计算出从候选视点看到的图像的平均置信度的负值。这意味着视点能看到的低置信度区域越多，其利用效用越高。 * 总效用： 最终候选视点的总效用是探索效用和利用效用的加权和，其中探索权重在任务初期被设置得较高，以鼓励快速探索。 * 候选视点采样： 为了高效生成有意义的候选视点，研究采用了两种采样策略的结合： * 基于兴趣区域（ROI）的采样： 系统主动识别两类ROI体素：一是包含低置信度高斯基元的体素（用于“利用”）；二是前沿体素（frontier voxels），即与自由空间相邻的未探索体素边界（用于“探索”）。对于每个ROI，根据其位置和方向（低置信度体素的方向是其内基元的平均法向；前沿体素的方向是指向自由空间的平均向量），在其前方一个锥形区域内采样候选视点。 * 局部随机采样： 在当前视点附近随机采样候选视点，以避免陷入局部最优。 * 最优视点选择： 评估所有候选视点的总效用，并使用A*算法计算从当前位置到达各候选视点的最短可通行路径（基于体素地图）。最终选择下一个最佳视点时，综合考虑总效用和旅行成本（距离），以在信息增益和移动代价之间取得平衡。
5. 实验设计与评估： 研究通过仿真和真实世界实验验证了其框架的有效性。 * 仿真实验： 使用Habitat仿真器和Replica数据集，在8个不同的室内场景中进行。机器人（模拟相机）在300秒的任务时间内进行主动重建。基线方法包括：仅探索的FBE、基于GS的FisherRF、基于NeRF的Naruto（当时最先进方法），以及ActiveGS的几个变体（如去掉ROI采样、使用替代置信度公式）。 * 评估指标： * 渲染质量： 在场景中均匀分布的1000个测试视点上，计算从重建的GS地图渲染出的RGB图像与真实图像的峰值信噪比（PSNR）。 * 网格质量： 使用在训练视点渲染的深度图进行TSDF融合并提取网格，计算其相对于真实网格的完整度比率（Completeness Ratio），阈值设为2厘米。 * 真实世界实验： 使用一架搭载Intel RealSense D455 RGB-D相机的无人机，在一个6m x 6m x 3m的真实场景中验证框架的实用性。定位由动作捕捉系统提供，规划与建图算法在远程桌面PC上运行，通过ROS与无人机通信。
第四， 主要实验结果与逻辑关系 实验结果有力地支持了研究者的三个核心主张。
1. ActiveGS框架优于最先进的基于NeRF和GS的方法： 仿真实验结果显示（图4），ActiveGS在所有测试场景的PSNR和完整度比率指标上均表现最佳。特别是，与基于NeRF的Naruto方法相比，ActiveGS在渲染质量上显示出显著优势。论文指出，这是因为NeRF方法为了实现在线增量更新，往往在模型容量上做出妥协，从而限制了其在大规模场景重建中的表示能力。而基于GS的FisherRF方法，虽然也使用GS，但其通过计算费舍尔信息来评估视点效用，需要为每个候选视点和历史视点进行耗时的梯度计算，导致规划时间过长，在有限任务时间内难以完成高质量重建。ActiveGS的轻量级置信度建模和快速前向渲染，使其在效率和最终重建质量上都超越了这些基线。
2. 置信度建模与ROI采样策略的有效性： 通过对ActiveGS的变体进行消融研究，结果清晰证明了所提方法的贡献。 * “Ours (w/o ROI)” vs “Ours”： 移除基于ROI的采样（仅使用局部随机采样）后，性能（均值和稳定性）有所下降。这证明了主动识别低置信度区域和前沿区域来指导候选视点生成的策略，能够更有效地引导机器人进行“针对性检查”和探索，从而提升任务效率和重建质量。 * “Ours†” vs “Ours”： “Ours†”采用了一种简化的置信度公式，仅基于观测到基元的视点数量（不考虑其空间分布）。其性能低于完整的置信度模型。这证明了考虑视点方向分散度（β_i）的重要性。一个基元即使被多个视点观测，如果这些视点方向相似（例如只从一个侧面看），其几何和外观的优化可能仍然不完善，完整的置信度模型能更准确地识别出这类“欠重建”区域。
这些结果在逻辑上紧密相连：有效的置信度模型（第三步）是识别欠重建区域的基础；基于此识别的ROI采样策略（第四步）能生成更具信息量的候选视点；最终，结合了探索与利用效用的规划器（第四步）选择了这些视点，从而在相同任务时间内采集到更关键的数据，驱动增量式地图更新（第二步）产生更高质量的重建结果（PSNR和完整度提升）。图5的视觉对比进一步展示了ActiveGS能够重建出更完整、细节更丰富的场景（如墙壁纹理、家具结构），而基线方法则在某些区域（红圈标出）出现缺失或模糊。
3. 在真实世界场景中的适用性： 真实世界无人机实验成功演示了ActiveGS框架在实际机器人平台上的运行能力（图6）。尽管有定位精确的假设，但实验验证了整个软硬件集成流程的可行性，包括在线数据采集、地图更新和路径规划。补充视频展示了无人机能够根据体素地图（探索）和GS置信度（利用）主动规划路径，逐步构建出场景的GS模型。
第五， 研究结论与价值 本研究的结论是，所提出的ActiveGS框架成功地将高斯泼溅的高保真重建能力与主动视角规划相结合，实现了高效、高质量的未知场景在线主动重建。
其科学价值在于： 1. 提出了一种新颖的混合地图表示，巧妙结合了GS的精细表示能力和体素地图的空间建模与规划能力。 2. 创新性地解决了GS在主动重建中的关键瓶颈——即通过基于视点分布的置信度模型，实现了对高斯泼溅重建质量的在线、无需真值的评估。 3. 设计了一个统一的双效用视点规划器，能够同时处理“探索未知”和“利用欠重建区域”的需求，并通过ROI采样机制将置信度信息直接转化为规划指导。
其应用价值在于： * 为移动机器人（如无人机、地面机器人）提供了一个能够在在线任务中实时构建高质量、可用于下游任务（如精细操作、检测）的3D场景地图的系统。 * 所提出的置信度模型和规划框架具有通用性，可启发和应用于其他基于显式或隐式表示的主动感知任务。
第六， 研究的亮点 1. 核心创新点突出： 针对“如何评估GS地图质量”这一核心难题，提出了一个轻量、高效且物理意义明确的置信度建模方法，这是将GS成功应用于主动重建的关键。 2. 系统性框架设计： 并非简单地堆叠现有技术，而是设计了一个从混合表示、增量更新、质量评估到闭环规划的完整系统框架，各个环节紧密结合。 3. 显著的性能优势： 通过充分的对比实验和消融研究，在多个标准场景上证明了其方法在重建质量和效率上均显著优于当前最先进的基于NeRF和GS的主动重建方法。 4. 理论与应用结合： 不仅在仿真中验证了算法有效性，还通过真实的无人机实验演示了其实际部署的潜力。 5. 开源促进研究： 研究者公开了实现代码，有助于该领域的可重复性研究和进一步发展。
第七， 其他有价值的内容 论文最后坦承了当前框架的一个主要局限性：假设了完美的机器人定位。在实际应用中，定位不确定性是不可避免的。研究者将未来的工作方向指向了将定位不确定性纳入高斯基元的置信度建模中，这是一个非常重要且实际的改进方向。此外，他们还计划更好地集成体素地图与GS地图以提升建图效率，并探索基于优化的方法来进一步提升规划质量。这些展望为该技术的持续发展指明了道路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问