一、 研究团队与发表信息
本文的研究团队主要来自北京大学计算机学院,部分成员来自北京航空航天大学人工智能研究院。通讯作者为北京大学计算机学院的Guoping Wang教授。该研究以论文形式发表,从文中提供的ICCV字样及页脚编号(28839-28848)可以推断,它被计算机视觉领域的顶级会议ICCV(International Conference on Computer Vision)接收并发表。ICCV是计算机视觉领域的旗舰会议,代表了该领域的前沿研究水平。
二、 研究背景与目标
本研究属于计算机视觉与计算机图形学的交叉领域,具体聚焦于新颖视图合成(Novel View Synthesis)和大规模三维场景重建。近年来,神经辐射场(Neural Radiance Fields, NeRF)和3D高斯溅射(3D Gaussian Splatting, 3DGS)等技术在三维场景表示与渲染方面取得了突破性进展。特别是3DGS,以其高度逼真的渲染质量和实时渲染能力,展现出巨大的应用潜力。
然而,当将这些技术应用于大规模航拍城市场景时,现有方法面临严峻挑战: 1. 内存消耗过大:完整场景的数据量远超单GPU内存容量。 2. 训练速度缓慢:处理海量数据导致训练时间过长。 3. 数据划分过程耗时:将大场景分割为可管理区块的预处理步骤效率低下。 4. 渲染质量下降:随着场景规模增大,重建和渲染的保真度显著降低。
现有的大规模场景处理方法(如Block-NeRF, Mega-NeRF以及一些基于高斯的方法如CityGS)通常采用“分而治之”的策略,即将场景划分为多个区块独立训练。但这些方法为了确保区块边界处的重建质量,往往需要训练区块周围的大片冗余区域,造成了巨大的计算资源浪费。
基于此,本研究旨在解决上述问题,其核心目标是:开发一种能够高效、高质量地重建与渲染大规模航拍城市场景的新方法。具体而言,研究团队提出了名为HUG(Hierarchical Urban Gaussian Splatting)的新方法,希望通过引入基于可见性的数据划分和分层的神经高斯表示,优化数据处理流程,减少计算冗余,并最终在多个公开数据集上达到最先进的性能。
三、 研究方法与工作流程
HUG方法的整体流程如图2所示,主要包括以下几个核心步骤:
1. 基于可见性的数据划分 这是HUG方法高效性的首要保障。传统方法(如CityGS)的划分过程可能需要数小时,而HUG的划分仅需约1分钟。其具体流程如下: * 输入:使用运动恢复结构(Structure from Motion, SfM)工具(如Colmap)从航拍图像中生成的稀疏点云。 * 场景划分:将整个三维场景的空间均匀分割成多个大小可控的区块,以防止内存溢出。每个区块关联一个稀疏点子集。 * 基于可见性的视图划分:对于每个区块,算法会遍历所有图像(视图)。通过将区块内的稀疏点重投影到每个图像平面,计算在该图像中可见的稀疏点数量。只有当可见点数超过预设阈值(τp,文中设为800)时,该图像才会被分配给此区块作为训练视图。这确保了每个区块只使用与其高度相关的图像进行训练,极大减少了冗余数据。 * 可见性掩码生成:对于分配给某个区块的每一张训练图像,算法会进一步生成一个可见性掩码。该掩码精确地标出了图像中哪些像素区域对应于当前区块的内容(值为1),哪些不对应(值为0)。这个掩码在后续训练中起到关键作用,使优化过程能够聚焦于区块内的有效区域,进一步避免在无关区域浪费计算。
2. 分层神经高斯表示与训练 这是HUG方法高质量重建的核心。该方法建立在Scaffold-GS和Octree-GS的思想之上,并进行了关键性创新。 * 分层锚点初始化与选择: * 在每个区块内,算法构建一个覆盖该区块空间的八叉树。八叉树节点的中心被定义为“锚点”。八叉树的最大深度K由区块点到所有相机中心距离的统计分位数动态决定,从而自适应场景的尺度。 * 这些锚点具有不同的细节层次。距离相机近的区域,会使用更深层(更高细节等级)的锚点;距离相机远的区域,则使用较浅层(较低细节等级)的锚点。在训练每个视图时,系统会根据锚点到相机的距离,动态选择参与渲染的锚点等级。 * 从锚点到神经高斯:每个选中的锚点并不直接存储高斯属性(如颜色、不透明度、协方差矩阵),而是通过一个小型多层感知机推断出多个神经高斯(Neural Gaussians)。这种表示方式更为紧凑和高效。 * 分层加权图像监督(核心创新):研究发现,直接优化分层神经高斯会导致渲染中出现明显的浮游伪影(floaters)。为此,HUG提出了一种新颖的监督策略。 * 传统监督:使用所有选中锚点渲染完整图像,并与真实图像计算L1损失和SSIM损失。 * 分层监督:额外地,对不同等级的锚点进行独立渲染和评估。例如,仅用最精细等级(K-1级)的锚点渲染一幅图像,对其进行监督,但赋予较小的权重(λ/2^K)。对次精细等级(K-2级)的锚点渲染图像也进行监督,权重更小(λ/2^(K-1)),以此类推,直至最粗糙等级(0级)。 * 作用机制:这种策略强制高层级(粗糙)锚点主要学习场景的概貌和基础颜色,而低层级(精细)锚点则专注于学习细节。同时,它还引入了一个不透明度掩码,以处理高层级锚点渲染时产生的大片透明区域问题。公式(8)综合了所有这些损失项,确保了所有层级的锚点在训练中都能被有效优化,从而解决了Octree-GS中存在的“未优化锚点”问题(如图5所示)。 * 动态锚点优化策略: * 动态梯度阈值分割:借鉴3DGS,锚点会根据其梯度大小进行分裂以增加细节。HUG创新性地使梯度阈值随着训练迭代而动态下降(τg(i) = τg · η^⌊i/m⌋),从而在训练后期也能持续细化。 * 动态锚点等级跃迁:当一个锚点的梯度持续显著超过动态阈值时,算法会逐步提升其等级,使其能够表达更精细的细节。这实现了细节层次的自适应调整。 * 基于可见性的锚点剪枝:除了常规的基于不透明度的剪枝,HUG还引入了基于可见性计数的剪枝。如果一个锚点在多次训练迭代中很少被选中参与渲染(可见计数低于阈值εc),则会被移除。这专门针对分层结构中可能出现的无效锚点。
3. 场景融合与渲染 * 局部场景重过滤:所有区块独立训练完成后,需要将它们拼接成完整场景。传统方法(如CityGS)会直接过滤掉中心位于区块边界之外的锚点。HUG提出了一种基于投票的贪婪锚点重过滤策略:即使一个锚点的中心在区块外,但只要它生成的大部分神经高斯的中心在区块内,该锚点就会被保留。这有助于减少边界处的伪影。 * 全局场景渲染:由于每个区块训练了自己的MLP来从锚点推断神经高斯,直接使用标准的3DGS渲染器无法处理多个不同的MLP。HUG重新实现了光栅化流程,使其能够同时加载和运行来自不同区块的多个MLP。在渲染时,系统选择所有可见锚点,然后并行调用其所属区块的MLP来生成神经高斯,最后进行混合渲染,从而实现了大规模场景的无缝实时渲染。
四、 实验结果与分析
研究团队在五个数据集上评估了HUG,包括一个合成数据集MatrixCity(覆盖2.7平方公里城市场景)和四个真实世界航拍数据集(Residence, Rubble, Building, Sci-Art)。评估指标为PSNR(峰值信噪比)、SSIM(结构相似性)和LPIPS(学习感知图像块相似度)。
1. 定量结果分析 如表1所示,HUG在几乎所有场景和指标上都取得了最佳或接近最佳的性能。 * 总体优势:在MatrixCity数据集上,HUG的PSNR(31.12,见图1)、SSIM和LPIPS均显著优于基线方法CityGS。在四个真实数据集上,HUG也全面超越了包括3DGS、CityGS、VASTGS、Hier-GS在内的所有先进方法。 * 关键对比:与同样采用分层结构的Octree-GS相比,HUG在MatrixCity上PSNR高出超过1.5分,这证明了其基于区块的重建流程及其他优化策略的有效性。与专门为大场景设计的CityGS和VASTGS相比,HUG的优越性验证了其分层表示与神经高斯结合的有效性。
2. 定性结果分析 如图4所示,HUG在视觉质量上展现出明显优势。 * 细节重建:在MatrixCity中,能更好地重建屋顶纹理、立面钢结构和路灯等精细结构。 * 伪影控制:在Rubble场景中,HUG在废墟堆周围产生的伪影更少。 * 颜色保真度:在Building场景中,HUG和Hier-GS都能重建楼梯,但HUG的颜色更准确。 * 完整度:在Sci-Art场景中,HUG成功重建了其他方法未能完整还原的、位于两栋背景建筑之间的楼房。 * 问题解决:如图5所示,HUG有效消除了Octree-GS中存在的“未优化锚点”问题,该问题在视角拉近时表现为彩色伪影。
3. 效率分析 如表2所示,HUG在效率上具有压倒性优势。 * 划分速度:HUG的基于可见性的划分方法在每个场景上仅需约1分钟,而CityGS在MatrixCity上需要超过2小时,VASTGS和Hier-GS也需要数分钟到十分钟不等。 * 优化时间:每个区块的优化时间上,HUG与CityGS、VASTGS相当(约1小时),但远快于需要额外后处理的Hier-GS(近2小时)。
4. 消融实验 在Rubble场景上的消融研究(表3)逐步验证了各个组件的贡献: * 基线:仅使用基础方法。 * +C1(可见性掩码):引入后,所有指标均有提升,证明聚焦区块内区域的有效性。 * +C2(分层加权监督):进一步显著提升质量,解决了分层训练的核心难题。 * +C3(动态梯度阈值):继续提升性能,表明自适应细化策略的重要性。 * 完整模型:整合所有组件后达到最佳性能。
五、 研究结论与价值
本研究提出的HUG方法,通过高效的基于可见性的数据划分和创新的分层神经高斯表示与训练策略,成功解决了大规模航拍城市场景重建中的内存、效率和质量瓶颈。实验证明,HUG在多个公开基准测试上达到了最先进的性能,同时在数据划分速度上具有数量级的优势。
科学价值: 1. 方法论创新:提出了“可见性掩码”和“分层加权图像监督”等核心创新点,为大规模神经渲染中的分块训练和分层优化提供了新的思路和解决方案。 2. 性能突破:首次将神经高斯表示与细节层次(LoD)技术在整个流程中结合,并应用于航拍城市场景,实现了质量与效率的平衡。 3. 问题洞察与解决:深入分析了现有分块方法计算冗余的根源,并针对分层高斯训练中的伪影问题提出了有效的解决方案。
应用价值:HUG使得高质量、实时的超大规模城市级三维数字化重建与渲染变得更为可行,在数字孪生城市、城市规划、仿真模拟、文化遗产保护、自动驾驶地图构建等领域具有广阔的应用前景。
六、 研究亮点
七、 其他有价值内容与局限
论文也坦诚地指出了当前方法的局限性,并指出了未来的改进方向: 1. 动态物体处理:当前方法假设场景是静态的,无法处理移动的物体(如车辆、行人)。 2. 对Colmap的依赖:初始化仍需依赖传统的SfM流程(如Colmap)来获取稀疏点云和相机位姿。 3. 空地一体化重建:目前主要针对航拍视角,未来可扩展至支持统一的地面与空中联合重建。
这些局限性为后续研究指明了清晰的道路。总体而言,HUG是一项在大型场景神经渲染领域兼具创新性、实用性和卓越性能的重要工作。