分享自:

实时辐射场渲染的3D高斯溅射技术

期刊:ACM Trans. Graph.DOI:https://doi.org/xxxxxxx.xxxxxxx

这篇文档属于类型a,是一篇关于原创研究的学术论文。以下是针对该研究的详细学术报告:


一、作者与发表信息

本研究由Bernhard Kerbl(法国Inria、Université Côte d’Azur)、Georgios Kopanas(法国Inria、Université Côte d’Azur)、Thomas Leimkühler(德国Max-Planck-Institut für Informatik)和George Drettakis(法国Inria、Université Côte d’Azur)共同完成,发表于ACM Transactions on Graphics期刊(2023年8月)。论文标题为《3D Gaussian Splatting for Real-Time Radiance Field Rendering》。


二、学术背景

研究领域:本研究属于计算机图形学中的实时渲染(real-time rendering)新型视图合成(novel-view synthesis)领域,聚焦于辐射场(radiance field)的高效表示与渲染。

研究动机
传统神经辐射场(NeRF)方法依赖连续体积表示和昂贵的神经网络训练,导致渲染速度慢(如Mip-NeRF360仅0.071 fps)。尽管InstantNGP等加速方法提升了训练速度,但需牺牲渲染质量。本研究旨在实现实时高保真渲染(≥30 fps,1080p分辨率),同时保持与最优方法(如Mip-NeRF360)相当的视觉质量。

关键技术背景
1. 辐射场表示:现有方法依赖体素(voxel)或哈希网格(hash grid)的连续采样,导致计算成本高。
2. 点基渲染(point-based rendering):通过投影2D高斯核(Gaussian splats)实现高效混合(α-blending),但依赖多视角立体几何(MVS)输入,易产生伪影。
3. 各向异性(anisotropic)表示:传统方法难以优化协方差矩阵的正定性,限制了几何细节的建模能力。

研究目标
提出一种基于3D高斯(3D Gaussians)的显式场景表示方法,结合实时可微分渲染器,实现快速优化与实时渲染。


三、研究流程与方法

1. 3D高斯场景表示

  • 初始化:从运动恢复结构(SFM)的稀疏点云出发,将每个点转换为3D高斯,属性包括位置(均值)、协方差矩阵σ、不透明度α和球谐系数(SH coefficients,用于视角相关颜色)。
  • 协方差优化:通过缩放矩阵S和旋转矩阵R分解σ(σ=RS(SR)^T),避免直接优化非正定矩阵。旋转由四元数表示,缩放由3D向量参数化。
  • 可微分投影:将3D高斯投影至2D图像空间,利用Zwicker等人的方法计算投影后的2D协方差,支持各向异性光栅化。

2. 自适应密度控制优化

  • 优化参数:联合优化位置、协方差、α和SH系数,损失函数为L1 + SSIM(权重0.2)。
  • 密度控制
    • 克隆(cloning):对覆盖不足的小高斯(梯度幅值高)复制并沿梯度方向移动。
    • 分裂(splitting):对过大的高斯(几何细节丢失)拆分为两个,尺度缩小1.6倍。
    • 修剪(pruning):移除透明(α<阈值)或过大的高斯。
  • 训练策略
    • 初始低分辨率训练(4倍降采样),逐步上采样。
    • 分阶段引入SH系数(每1000迭代增加1阶),避免角度信息不足导致的优化不稳定。

3. 实时可微分渲染器

  • 分块光栅化(tile-based rasterization)
    • 将屏幕分为16×16分块,剔除视锥体外的高斯。
    • 基于深度和分块ID对高斯排序(GPU基数排序),按序混合。
  • 可见性感知渲染:保留所有高斯的梯度贡献,通过反向遍历排序列表计算累积α值,支持各向异性混合。

四、主要结果

  1. 渲染质量

    • 在Mip-NeRF360、Tanks&Temples等数据集上,PSNR达25.2(30k迭代),超越Plenoxels(21.9)和InstantNGP(23.6)。
    • 各向异性高斯能紧凑表示复杂几何(如植被、薄结构),如图3所示。
  2. 训练效率

    • 训练时间6分钟(7k迭代)至51分钟(30k迭代),远快于Mip-NeRF360(48小时)。
  3. 实时性能

    • 渲染速度达135 fps(1080p),首次实现无质量妥协的实时辐射场渲染。
  4. 消融实验

    • 各向异性协方差:禁用后PSNR下降2.5 dB(表3)。
    • 密度控制:禁用克隆或分裂导致背景或细节丢失(图8)。

五、结论与价值

科学价值
- 提出首个结合显式3D高斯与隐式体积优点的辐射场表示,证明连续表示非实时渲染的必要条件。
- 为实时图形学提供了新范式,弥合了传统点渲染与神经体积渲染的鸿沟。

应用价值
- 适用于虚拟现实、游戏引擎等需实时高保真渲染的场景。
- 开源实现(https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/)推动社区发展。


六、研究亮点

  1. 创新表示:3D高斯作为可优化、可光栅化的显式体积基元,支持各向异性几何建模。
  2. 高效优化:自适应密度控制动态调整场景表示复杂度(1-500万高斯)。
  3. 工程突破:分块排序渲染器实现GPU友好的实时混合,支持无限制梯度传播。

七、其他价值

  • 泛化性:在合成数据(NeRF-Synthetic)中,即使随机初始化也能达到SOTA质量(PSNR 33.32)。
  • 紧凑性:相比Point-NeRF,模型尺寸减少60%(3.8 MB vs. 9 MB)。

(注:因篇幅限制,部分细节如梯度计算附录未展开,详见原文。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com