关于《LODGE:具有高效渲染能力的大规模高斯泼溅细节层次方法》的学术研究报告
一、 研究作者、机构及发表情况
本研究报告的研究论文标题为“LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering”。该研究由来自谷歌(Google)、谷歌深度思维(Google DeepMind)、慕尼黑工业大学(Technical University of Munich)以及捷克技术大学布拉格分校(Czech Technical University in Prague)多个院系的研究人员共同完成。主要作者包括Jonas Kulhanek, Marie-Julie Rakotosaona, Fabian Manhardt, Christina Tsalicoglou, Michael Niemeyer, Torsten Sattler, Songyou Peng, Federico Tombari。该论文已提交至第39届神经信息处理系统大会(NeurIPS 2025)进行审阅,并于2024年10月29日在预印本平台arXiv上公开(arXiv:2505.23158v2)。
二、 学术背景与研究目标
本研究隶属于计算机视觉与计算机图形学的交叉领域,核心研究方向为新视角合成(Novel View Synthesis)。近年来,随着神经辐射场(Neural Radiance Fields, NeRF)和3D高斯泼溅(3D Gaussian Splatting, 3DGS) 技术的突破,高质量、逼真的3D场景重建与实时渲染成为可能。其中,3DGS因其能够实现实时渲染而备受关注,极大地推动了增强现实(AR)、虚拟现实(VR)、游戏和交互式地图等应用的发展。
然而,现有技术在处理大规模场景(Large-Scale Scenes) 时面临严峻挑战。为了捕捉场景的精细细节,3DGS需要海量的高斯基元(Gaussians)。这导致即使对于远离摄像机的、对最终成像贡献微乎其微的远景区域,也需要存储和处理大量密集的高斯基元。这种冗余造成了显著的渲染效率低下和巨大的GPU内存消耗。特别是对于内存资源受限的移动设备或低端硬件,将所有高斯数据同时载入内存几乎是不可能的,严重限制了3DGS技术在普适设备上的部署与应用。
在传统计算机图形学中,细节层次(Level-of-Detail, LOD) 技术是解决大规模场景渲染的经典策略,它根据物体与摄像机的距离动态调整其渲染精度。尽管已有研究尝试将LOD思想引入3DGS,但它们大多仅关注提升渲染速度,并未从根本上限制GPU内存中需同时加载的高斯数量。这些方法通常需要在每一帧动态计算需要渲染的高斯子集,带来了额外的计算开销,并且要求所有LOD级别的高斯数据常驻内存,未能解决内存瓶颈问题。
因此,本研究旨在提出一种新颖的、面向3DGS的LOD表示与渲染框架,其核心目标是:在保证最先进(State-of-the-Art) 渲染质量的前提下,大幅降低大规模场景的渲染时间和GPU内存占用,从而实现在包括移动设备在内的资源受限平台上的实时渲染。
三、 研究方法与工作流程详述
本研究的工作流程是一个系统性工程,主要包含四个核心步骤:基础3DGS重建、分层LOD表示构建、基于空间分块的缓存机制设计,以及平滑过渡的渲染策略。
第一步:构建基础3DGS表示 研究并非从零开始训练LOD模型,而是首先利用现有技术优化一个高质量的“基础”3DGS场景表示(记为G^(0))。这个基础模型采用了经过改进的3DGS训练流程,集成了Mip-Splatting的抗锯齿2D滤波器、H3DGS改进的致密化策略,以及RADSplat提出的基于重要性评分(Importance Score)的剪枝技术。具体而言,重要性评分通过计算每个高斯基元在所有训练相机视角下对像素贡献的最大权重来度量,从而可以有效地剔除被遮挡或贡献度极低的高斯基元。这一步骤确保了LOD构建的起点具有高保真度。
第二步:构建分层LOD表示 这是本研究的核心创新之一。目标是创建一系列细节程度递减的高斯集合{G^(l)},其中l=0表示最精细的原始模型,l越大表示细节越粗糙。每个LOD级别G^(l)被设计为在距离摄像机至少d_l时仍能提供足够的渲染质量。 1. 深度感知3D平滑滤波:为了构建G^(l),研究从最精细的G^(0)复制高斯基元,并对其应用一个深度感知的3D平滑滤波器。该滤波器受Mip-Splatting启发,根据目标观察距离d_l和焦距f,计算世界空间中的奈奎斯特采样间隔。通过将每个高斯基元与一个方差为(s*d_l/f)*I的3D高斯核进行卷积(s为超参数),等效于增大了高斯的尺寸,过滤掉了在距离d_l处会低于奈奎斯特频率、从而可能导致走样(Aliasing)的高频细节。这相当于对场景进行了适度的模糊化预处理。 2. 重要性剪枝与微调:应用平滑滤波器后,许多高斯基元会因为重叠或贡献度降低而变得冗余。研究再次利用重要性评分对G^(l)中的高斯进行剪枝,移除那些评分低于阈值(例如0.2γ, 0.6γ, γ)的基元。随后,进行少量(如1000次)优化迭代,以修正因剪枝可能引入的渲染误差。在微调时,使用截至当前级别l的LOD渲染流程,并且将距离阈值d_l替换为一个在[0.7d_l, 1.3d_l]内均匀分布的随机值,以增强模型对训练轨迹外相机位置的鲁棒性。 3. 自动深度阈值选择:如何选择每个LOD级别的距离阈值{d_l}至关重要。研究提出了一种自动化的贪心策略。渲染性能的关键瓶颈在于每个16x16像素的图块(Tile)内需要处理的高斯数量。研究通过渲染一部分训练视图,评估不同阈值组合下每个图块平均处理的高斯数量(即“成本”),并选择使该成本最小化的阈值序列。实验表明,成本函数在阈值空间呈近似线性关系,从而允许从第一个阈值开始,迭代地添加新阈值,将复杂的搜索问题简化为线性复杂度。
第三步:基于空间分块的缓存与可见性过滤 为了彻底解决内存问题并避免每帧动态选择高斯带来的开销,研究进一步引入了分块(Chunk) 渲染机制。 1. 场景分块:通过对所有训练相机的位置进行K-means聚类,将整个3D场景划分为多个空间区域(块)。每个块以其聚类中心为代表。 2. 预计算“活跃高斯”集:对于每个块中心c,根据公式(2)预计算一个固定的“活跃高斯(Active Gaussians)”集合G̃©。这个集合并非仅包含位于该块空间边界内的高斯,而是包含了整个场景的高斯,只不过距离块中心近的区域使用更精细的LOD级别,远的区域使用更粗糙的级别。这样,在渲染时,渲染器只需加载距离当前摄像机最近的那个块所对应的预计算高斯集合即可,无需将全场景所有LOD的高斯数据载入内存。 3. 可见性过滤:为了进一步减少每个块需要加载的高斯数量,研究对每个块的“活跃高斯”集进行了额外的可见性过滤。在块内,通过向训练相机位姿添加随机扰动生成更多虚拟视角,重新计算每个高斯的重要性评分,并剔除低重要性高斯。这显著降低了内存占用和渲染负载。
第四步:不透明度混合实现平滑过渡 如果渲染时仅使用最近块的“活跃高斯”集,当摄像机跨越块边界时,由于活跃高斯集合发生突变,会导致渲染画面出现明显的跳跃或瑕疵。为解决此问题,研究提出了一种不透明度混合(Opacity Blending) 方案。 1. 双块混合:在渲染每一帧时,不仅找到最近的块中心m_f,还找到次近的块中心m_o。同时加载这两个块对应的预计算活跃高斯集合。 2. 动态不透明度调制:对于两个集合的对称差集(即只属于其中一个集合的高斯),根据当前摄像机位置c相对于两个块中心连线上的投影位置,动态调制其不透明度α。调制因子t与c到m_o的向量在(m_f - m_o)方向上的投影长度成正比。当摄像机靠近m_f时,属于m_f块的高斯不透明度接近1,属于m_o块的高斯不透明度接近0;当摄像机位于两中心中点时,两者不透明度各为0.5;靠近m_o时则相反。 3. 异步加载与无缝体验:这种设计允许系统在后台异步加载即将进入的块的高斯数据。当摄像机跨越边界时,只需卸载已远离的块的数据,保留当前最近块的数据,并加载新的次近块数据。由于混合机制保证了过渡平滑,即使新块数据加载稍有延迟,也不会产生视觉瑕疵。
四、 主要实验结果与分析
研究在两个主流的大规模场景数据集上进行了全面评估:户外场景使用Hierarchical 3DGS数据集中的“smallcity”和“campus”场景;室内场景使用Zip-NeRF数据集中的“alameda”、“london”和“nyc”场景。对比的基线方法包括Zip-NeRF、3DGS、Mip-Splatting、Scaffold-GS、H3DGS、FLOD、Octree-GS和CityGS。评估指标涵盖渲染质量(PSNR, SSIM, LPIPS)、渲染速度(FPS)以及内存占用量(以平均加载的高斯数量#G作为代理指标)。
在Hierarchical 3DGS数据集上(表1),LODGE方法在“smallcity”和“campus”场景上均取得了最佳或接近最佳的渲染质量(PSNR最高或位列前茅,SSIM和LPIPS表现优异)。更重要的是,在渲染速度上,LODGE大幅领先于所有其他方法,在“smallcity”上达到了257.46 FPS,是第二名Octree-GS(120.27 FPS)的两倍以上,同时其内存占用(#G为877k)远低于H3DGS(7093k)。这表明LODGE在保持高保真度的同时,实现了极高的渲染效率。
在Zip-NeRF数据集上(表2),LODGE在所有三个室内场景的渲染速度上均排名第一(229.99至280.22 FPS),显著快于其他实时渲染方法(如Octree-GS、CityGS)。在质量方面,LODGE的PSNR、SSIM与最好的方法(如H3DGS、Octree-GS)相当或略有胜负,但结合其巨大的速度优势,展现了卓越的性价比。值得注意的是,FLOD虽然速度也很快,但其PSNR和SSIM显著低于LODGE,这归因于其“由粗到精”的训练策略容易过早丢弃细节且难以恢复。
消融实验分析(表3,图7)系统地验证了各个组件的有效性: 1. LOD层级的影响:在基础模型上增加LOD层级能显著加速渲染(例如,仅一个LOD层级即可将渲染时间从15.17ms降至5.61ms),而PSNR损失极小。使用两个LOD层级(d=10,28米)在速度与质量间取得了良好平衡。 2. 分块与可见性过滤:引入分块机制并调整深度阈值后(“+ clusters”),虽然因每个块需要更精细的表示而略微增加了总高斯数,但通过预计算和缓存,进一步提升了渲染速度。在此基础上进行可见性过滤(“+ vis. filtering”),有效减少了需要加载和处理的可见高斯数量,从而再次降低了渲染时间和内存占用。 3. 不透明度混合:最终的完整方法(“opacity blending”)通过在两块间混合,消除了纯分块渲染带来的视觉瑕疵(图7中显示的锐度不连续问题),虽然轻微增加了渲染负载,但其速度仍远快于非分块的LOD版本,并且内存效率更高,特别适合移动设备。
移动设备性能测试(表4)是本研究的关键验证。在iPhone 13 mini、iPhone 15 Pro、MacBook Air M3和HP Chromebook等设备上,LODGE是唯一能够在所有设备上实现高质量(HQ)模式实时渲染的方法(41-43 FPS)。相比之下,H3DGS在iPhone上因内存不足无法运行,在笔记本电脑上帧率很低(7-13 FPS);标准的3DGS虽然能运行,但渲染质量(PSNR)远低于LODGE。这强有力地证明了LODGE在资源受限平台上的实用性和优越性。
五、 研究结论与价值
本研究成功提出并验证了LODGE,一个用于大规模3D高斯泼溅场景的、创新的细节层次表示与高效渲染框架。其核心结论是:通过结合分层LOD表示、基于空间分块的预计算缓存、以及不透明度混合过渡技术,可以实现在大幅降低GPU内存占用和计算开销的同时,保持最先进的新视角合成质量,从而使得大规模3D场景的实时渲染能够在移动设备等内存受限平台上成为现实。
该研究的科学价值在于,它系统性地解决了3DGS迈向大规模实际应用中的关键瓶颈——内存与效率问题,提出了一套完整且自动化的解决方案(包括LOD构建、阈值选择、分块与混合)。其应用价值巨大,为AR/VR、移动端3D地图、文化遗产数字化展示、机器人导航等需要高质量、大范围、实时3D交互的应用场景提供了切实可行的技术路径。
六、 研究亮点
七、 其他有价值内容
论文还讨论了方法的局限性,即假设高斯数据的加载和跨块重载是高效的。在实际部署中,这需要优化的网络服务器和压缩协议来实时向设备流式传输高斯数据,作者将此留作未来工作。此外,补充材料详细提供了实现细节、数据集描述、评估协议和更广泛的潜在影响分析,体现了研究的严谨性和可复现性。