分享自:

实时辐射场渲染的3D高斯泼溅技术

期刊:ACM Trans. Graph.DOI:https://doi.org/xxxxxxx.xxxxxxx

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


3D Gaussian Splatting for Real-Time Radiance Field Rendering 的学术报告

一、作者及发表信息
本研究由 Bernhard Kerbl(法国 Inria, Université Côte d’Azur)、Georgios Kopanas(法国 Inria, Université Côte d’Azur)、Thomas Leimkühler(德国 Max-Planck-Institut für Informatik)和 George Drettakis(法国 Inria, Université Côte d’Azur)共同完成,发表于 ACM Transactions on Graphics 期刊,2023年8月卷。


二、学术背景
科学领域:本研究属于计算机图形学中的实时渲染(real-time rendering)新型视图合成(novel-view synthesis)领域,结合了神经辐射场(Neural Radiance Fields, NeRF)点云渲染(point-based rendering)技术。

研究动机
传统神经辐射场方法(如 NeRF)虽能生成高质量视图,但训练和渲染成本极高(如 Mip-NeRF360 需 48 小时训练,渲染速度仅 0.071 FPS)。而现有快速方法(如 InstantNGP、Plenoxels)需在速度与质量间权衡,无法实现高分辨率(1080p)的实时渲染(≥30 FPS)。

目标
提出一种结合3D高斯分布(3D Gaussians)可微分渲染器(differentiable renderer)的新方法,实现以下突破:
1. 训练时间与最快方法相当(如 InstantNGP 的 7 分钟);
2. 渲染质量媲美当前最优方法(如 Mip-NeRF360);
3. 首次实现 1080p 分辨率下的实时渲染(135 FPS)。


三、研究流程与方法
研究分为三个核心步骤:

1. 3D高斯场景表示
- 输入:通过运动恢复结构(Structure-from-Motion, SfM)校准的多视角图像及其稀疏点云。
- 表示方法:将场景建模为各向异性 3D 高斯分布(anisotropic 3D Gaussians),每个高斯由以下参数定义:
- 位置(均值)、协方差矩阵(通过旋转矩阵和缩放矩阵分解优化)、不透明度(opacity)和球谐系数(Spherical Harmonics, SH)表示颜色。
- 创新点
- 协方差矩阵通过旋转四元数和缩放向量优化,避免直接优化半正定矩阵的数值不稳定问题;
- 支持从稀疏点云初始化或随机初始化(如 NeRF-Synthetic 数据集)。

2. 自适应密度控制的优化
- 优化参数:位置、协方差、不透明度和 SH 系数,交替进行参数优化与高斯密度调整。
- 关键操作
- 克隆(Cloning):对覆盖不足的小高斯,沿位置梯度方向复制;
- 分裂(Splitting):对覆盖过大的高斯,按比例缩小并拆分为两个;
- 修剪(Pruning):移除不透明度低于阈值(ε=0.0002)或体积过大的高斯。
- 损失函数:L1 损失与 D-SSIM 的加权组合(权重 λ=0.2)。

3. 实时可微分渲染器
- 渲染流程
- 分块处理:将屏幕划分为 16×16 的块(tile),剔除视锥体外的高斯;
- 排序与混合:使用 GPU 基数排序(radix sort)按深度对高斯排序,通过 α 混合(alpha-blending)合成像素颜色;
- 梯度计算:反向传播时跟踪所有高斯的贡献,避免梯度截断。
- 创新点
- 支持各向异性溅射(anisotropic splatting),保留体积渲染的连续性优势;
- 无需神经网络组件,显存占用显著低于基于 MLP 的方法。


四、主要结果
1. 质量与速度对比
- 训练时间:在 Mip-NeRF360 数据集上,7 分钟训练(7k 迭代)的 PSNR 达 23.6,与 InstantNGP(7 分钟,PSNR 22.1)相当;30k 迭代(51 分钟)后 PSNR 达 25.2,超越 Mip-NeRF360(48 小时,PSNR 24.3)。
- 渲染速度:1080p 分辨率下达 135 FPS(InstantNGP 为 9.2 FPS)。

2. 场景适应性
- 复杂场景:在无界场景(如户外花园)和薄结构(如自行车辐条)中均保持高质量(图 5);
- 合成数据:NeRF-Synthetic 数据集上平均 PSNR 达 33.32,与 Point-NeRF 相当(表 2)。

3. 消融实验
- 各向异性协方差:禁用后 PSNR 下降 1.5 dB(表 3);
- 密度控制:禁用克隆或分裂会导致背景或细节重建失败(图 8)。


五、结论与价值
科学价值
1. 提出首个结合显式 3D 高斯表示与隐式体积渲染优势的方法,解决了 NeRF 类方法无法实时的瓶颈;
2. 证明了点基渲染(point-based rendering)在质量上可超越基于体素(voxel)或哈希网格(hash grid)的方法。

应用价值
1. 为虚拟现实(VR)、增强现实(AR)等需要实时高保真渲染的场景提供解决方案;
2. 代码开源(https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/),推动社区发展。


六、研究亮点
1. 创新表示:首次将各向异性 3D 高斯用于辐射场建模,支持高效优化与渲染;
2. 实时性突破:相比 Mip-NeRF360,训练加速 56 倍,渲染速度提升 1900 倍;
3. 通用性:适用于从合成场景到大规模无界场景的多样化数据。

局限性
1. 对未被充分观察的区域可能出现伪影(图 12);
2. 峰值显存占用较高(约 20 GB),需进一步优化。


七、其他有价值内容
- 开源工具:提供了基于 PyTorch 的实现和交互式查看器 SIBR;
- 跨数据集验证:在 Mip-NeRF360、Tanks&Temples 和 Deep Blending 等 13 个场景中均表现优异。


(注:文中图表引用均基于原文档,部分细节因篇幅略去,可参考原文补充。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com