基于3D高斯溅射的重建方法：技术、数据集与比较

分享自：
基于3D高斯溅射的重建方法：技术、数据集与比较

期刊:Expert Systems with ApplicationsDOI:10.1016/j.eswa.2026.133170
关于《3D Gaussian Splatting for Reconstruction: Methods, Datasets, and Comparisons》的学术报告
本文是一篇发表于*Expert Systems with Applications*期刊（第331卷，2026年，文章号133170）的学术综述论文。作者团队来自北京工商大学计算机与人工智能学院、食品安全大数据技术北京市重点实验室、商业数据安全保护与智能治理北京市重点实验室（作者：Jiulin Liang, Caixia Liu, Haisheng Li*）以及北京工业大学北京人工智能研究院、多媒体与智能软件技术北京市重点实验室（作者：Wenshan Shen, Qianwen Yao）。该论文系统性地回顾、分类并比较了基于3D高斯泼溅（3D Gaussian Splatting, 3DGS）的3D重建技术，填补了该领域缺乏系统性综述的空白，并提出了一个新颖的技术分类法，对相关方法、常用数据集及性能比较进行了全面梳理。
论文主题与核心论点
论文的核心主题是：3D高斯泼溅（3DGS）作为一种新兴的、高效的3D表示与渲染技术，近年来在3D重建领域取得了革命性进展，催生了大量创新方法。为了理清这一快速发展的技术脉络，本文首次提出了一个基于网络架构和先验知识的技术分类范式，对现有方法进行了系统性归纳，并通过对代表性数据集和方法的量化比较，揭示了不同技术路线的优势、瓶颈及适用场景，最后指出了未来研究的关键挑战与方向。
主要观点阐述
观点一：提出了一个基于技术范式的全新分类框架，将3DGS重建方法系统性地划分为五大技术流派。
论文认为，现有的3DGS综述多从应用或输入条件（如单视图、多视图）角度分类，这模糊了方法之间的核心算法联系。为此，作者提出了一个根植于技术范式本身的分类法，将所有3DGS重建方法划分为两大技术范式，进而细分为五类：
基于网络架构的方法：强调通过架构创新来增强重建能力。这包括：
基于扩散模型的方法：利用2D或3D扩散模型的生成能力，从稀疏输入中生成完整3DGS表示。其核心原理是通过分数蒸馏采样（Score Distillation Sampling, SDS） 等技术，将预训练扩散模型对2D图像“合理性”的判断，转化为优化3D高斯参数的梯度信号，从而补全缺失的几何与纹理。
基于序列建模的方法：使用Transformer或Mamba等序列模型，将多视图图像和相机参数视为序列输入，以前馈方式直接预测3D高斯属性序列，避免了传统“每场景优化”的高计算成本和对初始化的依赖。其中，Transformer擅长捕获长程依赖和跨视图几何，而Mamba以其线性计算复杂度高效处理超长序列，解决了Transformer在处理海量高斯基元时的内存瓶颈。
基于先验知识的方法：侧重于利用额外知识来引导重建过程。这进一步分为内部先验和外部先验：
基于原始优化的方法（内部先验）：依赖方法自身固有的优化策略，旨在解决标准3DGS在连续表面建模、稀疏视图不稳定性和大规模场景内存开销方面的瓶颈。具体方向包括：调整高斯基元形状（如Mip-Splatting引入抗锯齿滤波）、施加局部拓扑约束（如将3D高斯扁平化为2D面元以增强空间一致性）、进行跨视图基元对齐（如通过多视图深度验证剔除漂浮物）以及组织空间结构（如使用渐进式分区和细节层次控制来管理内存与计算）。
基于几何增强的方法（外部先验）：引入显式或隐式的几何信息作为约束。其中，显式几何引导的方法整合深度、法线、点云、网格、体素等外部几何先验，用于监督优化、初始化结构、组织空间骨架或恢复连续表面。隐式增强的方法则将3DGS与符号距离场（SDF）等隐式几何场结合，通过双向优化或正则化约束，使离散的高斯分布与连续的物理表面对齐，从而修正空间漂移和几何碎片。
基于时空与语义引导的方法（外部先验）：为满足动态场景重建和语义理解的需求，将时序信息和语义特征融入3DGS优化流程。时空特征融合通过可变形场、原生4D表示或物理约束来建模连续运动和非刚性变形。语义特征嵌入则将高维语义特征（如来自2D基础模型）压缩或映射到3D高斯属性中，使高斯基元具备场景感知和对象级理解能力。
这一分类框架清晰地揭示了不同方法的核心技术本质，避免了因输入条件或任务场景差异而导致的算法关联性模糊问题。
观点二：详细梳理并介绍了3DGS重建领域常用的五大基准数据集，并建立了方法与任务场景的映射关系。
论文指出，3DGS重建流程通常依赖于具备精确相机参数、多视图图像和几何真值的数据集。文章重点介绍了五个被广泛使用的公开数据集： 1. Mip-NeRF360数据集：专注于无界真实世界场景，包含室内外复杂环境，提供多尺度高分辨率图像、相机参数和COLMAP稀疏点云，是评估场景级多视图重建和先验驱动方法处理复杂背景与连续表面能力的主要基准。 2. GSO（Google Scanned Objects）数据集：包含1030个高保真日常物品3D模型，具有干净背景和完整几何，是评估对象级单视图/稀疏视图重建和网络驱动框架重建能力的严格基准。 3. Tanks and Temples数据集：包含在复杂真实世界环境中采集的大规模室内外场景，提供高分辨率视频序列和激光扫描的高精度密集点云真值，是评估大规模场景级多视图重建几何精度和结构鲁棒性的核心基准，尤其适用于显式几何引导和基于原始优化的方法。 4. DTU数据集：一个用于多视图立体视觉的大规模基准，包含在受控光照条件下拍摄的物体场景，提供校正图像、相机参数和结构化光扫描的参考点云。由于其以物体为中心和可控照明的配置，成为评估对象级多视图重建，特别是隐式增强和序列建模方法在连续表面提取和光照鲁棒性方面的主要基准。 5. D-NeRF数据集：专为动态场景重建设计，包含8个具有复杂非刚性变形和真实非朗伯材质的合成动态序列。它适合评估动态和4DGS重建，是验证时空特征融合、非刚性变形建模和动态运动解耦的核心基准。
此外，论文通过表格（文中表6）总结了这些数据集与方法类别（如基于扩散模型、序列建模等）以及任务配置（如视图条件、重建范围、具体任务）之间的映射关系，为研究者选择合适的数据集评估特定方法提供了清晰指南。
观点三：通过系统的性能比较，量化分析了不同3DGS重建范式的优势、瓶颈与适用边界。
论文从重建质量、效率和特定能力（动态建模、语义感知）等多个维度，对网络驱动方法（扩散模型、序列建模）和先验驱动方法（原始优化、几何增强、时空语义）进行了对比分析，并得出以下核心结论：
网络驱动方法的性能：在单视图/稀疏视图的GSO数据集上，基于序列建模的方法（如TGS, Gamba, MVGamba）在PSNR、SSIM、LPIPS等新视图合成质量指标上全面优于传统的隐式方法（如SparseNeuS）和基于2D扩散的方法（如DreamGaussian）。这得益于其前馈式架构能直接回归显式高斯属性，避免了隐式渲染的过度平滑和SDS优化的梯度噪声。在效率上，序列建模方法实现了从分钟/秒级到亚秒级（如Gamba仅需0.05秒）的跨越式提升，其中Mamba架构凭借线性复杂度在处理长序列时优势显著。然而，这类方法对大规模预训练3D先验的依赖以及固定长度高斯序列对复杂微拓扑表示能力的限制，是其泛化能力的主要瓶颈。
先验驱动方法的性能：在Mip-NeRF360数据集上，外部几何先验（显式或隐式）通过施加物理表面约束，能有效抑制几何歧义和多面伪影，在PSNR和LPIPS等指标上表现优于仅依赖内部优化的基线3DGS。例如，隐式增强的GVKF和显式几何引导的PGSR分别取得了最佳的室外PSNR和室内LPIPS。在效率方面，内部原始优化（如Octree-GS, FastGS）和外部几何锚点（如Scaffold-GS）通过空间索引、正则化或骨架引导，从根本上遏制了无效基元的无序增殖，大幅压缩了存储（从数百MB降至数十MB）和训练时间。在动态建模与语义感知方面，时空先验方法（如4D-Rotor）在保持高渲染质量的同时实现了超高速率（1257 FPS）；而语义引导方法（如SPC-GS）通过注入语言先验，在ScanNet等数据集上获得了更高的语义分割精度（mIoU, mAcc），将3DGS从纯粹的几何渲染推进到了场景理解的层面。
综合适用性映射：论文分析指出，技术选择强烈依赖于任务条件。单视图/稀疏视图重建严重依赖扩散先验或序列模型的生成与推理能力来弥补信息缺失。多视图重建则更关注利用内部优化和几何增强来提升精度与效率。对象级重建侧重于解决离散高斯在平滑表面的碎片化问题，常采用3D扩散先验或隐式增强约束。场景级重建的核心挑战是内存和远视图失真，需结合序列建模的长程依赖捕获、显式几何引导的空间骨架约束以及原始优化的冗余修剪来共同应对。动态重建依赖于时空融合机制，而语义重建则需要有效的特征嵌入方案。
观点四：深刻指出了当前3DGS重建面临的关键挑战，并展望了未来有前景的研究方向。
在全面综述的基础上，论文总结了当前领域存在的实践约束与性能瓶颈，并勾勒出未来可能的研究路径：
挑战：
复杂真实场景的适应能力：现有方法在极端光照、严重遮挡、非刚性变形等复杂条件下的鲁棒性仍需提升。
语义与物理先验的深度融合：大多数方法仍依赖孤立的先验，如何将高效的内部表示与多模态外部先验（语义、物理规律）有机结合，以实现更准确、可扩展的3D重建，是一个关键挑战。
表示能力与效率的平衡：如何设计可变长度的高斯表示以更好地刻画复杂微拓扑，以及在弱先验下的跨领域泛化能力，是序列建模等方法需要解决的问题。
计算与内存开销：尽管已有诸多优化，但在超大规模场景或高保真需求下，计算和存储成本仍然是实际应用的障碍。
未来方向：
增强多样化场景下的能力：开发更强大的方法以处理更具挑战性的真实环境。
集成语义或物理先验：探索如何更紧密地结合高层语义信息或物理规律约束，以实现更精确和可扩展的3D重建。
探索混合表示与优化策略：研究结合不同范式优势的混合方法，例如将扩散模型的生成能力与序列模型的高效推理相结合，或将显式几何的精确性与隐式场的连续性相统一。
推动面向智能系统的应用：将3DGS重建更深入地集成到数字孪生、虚拟现实、自动驾驶、机器人交互等智能系统中，解决实际应用中的定位、地图构建、规划与决策问题。
论文的意义与价值
本综述论文具有重要的学术价值与应用指导意义： 1. 系统性梳理与分类：首次提出了一个以技术范式为核心的、层次清晰的3DGS重建方法分类学，为研究者理解该领域纷繁复杂的技术演进提供了清晰的脉络图。 2. 详尽的资源汇总：不仅系统介绍了主流方法，还详细梳理了关键数据集及其与方法、任务的对应关系，并提供了大量的量化性能对比数据，为后续研究者在方法选择、实验设计与性能评估方面提供了宝贵的参考。 3. 深刻的洞察与展望：通过对不同范式性能的深入比较，揭示了各自的内在优势、局限性与适用场景，并基于此指出了领域当前的核心挑战与未来的突破方向，对推动3DGS重建技术走向更成熟、更实用的发展阶段具有重要的引导作用。 4. 桥梁作用：作为一篇发表在*Expert Systems with Applications*上的综述，它有效地将计算机视觉与图形学领域的前沿技术（3DGS）与智能系统应用连接起来，探讨了这些重建方法在构建智能系统（如自动驾驶、机器人、VR/AR）中的潜在价值与实现路径。
这篇论文是关于3D高斯泼溅重建领域的一份及时、全面且深入的权威综述，对于刚进入该领域的研究者是一份极佳的导航，对于资深研究者也是梳理成果、洞察趋势的重要参考资料。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问