本文介绍了一项由Ben Mildenhall、Pratul P. Srinivasan、Matthew Tancik、Jonathan T. Barron、Ravi Ramamoorthi和Ren Ng共同完成的研究,题为《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》。该研究于2022年1月发表在《Communications of the ACM》期刊上,旨在解决计算机视觉和图形学领域中的视图合成问题,即从一组输入图像及其相机姿态生成新的视角图像。
视图合成是计算机视觉和图形学中的一个经典问题,其目标是从一组输入图像生成新的视角图像。尽管已有多种场景表示和渲染方法被提出,但在处理复杂几何和材质反射特性时,现有方法难以在大基线(large baseline)下实现逼真的渲染效果。本文提出了一种新的场景表示方法——神经辐射场(Neural Radiance Fields, NeRF),通过优化一个连续的5D函数来表示场景,从而生成高质量的新视角图像。
NeRF的核心思想是将场景表示为一个连续的5D函数,输入为空间位置(x, y, z)和视角方向(θ, φ),输出为该位置的体积密度和视角依赖的辐射亮度。通过使用全连接神经网络(MLP)来近似这一函数,并结合经典的体积渲染技术,NeRF能够从稀疏的输入图像中生成逼真的新视角图像。
NeRF的研究流程主要包括以下几个步骤:
场景表示:NeRF将场景表示为一个5D函数,输入为空间位置和视角方向,输出为体积密度和视角依赖的RGB颜色。这一函数通过一个全连接神经网络(MLP)来近似,网络输入为5D坐标,输出为体积密度和颜色。
体积渲染:为了从特定视角渲染图像,NeRF沿着相机光线采样3D点,并将这些点及其视角方向输入到神经网络中,生成颜色和密度。然后,使用经典的体积渲染技术将这些颜色和密度累积成2D图像。由于体积渲染过程是可微的,NeRF可以通过梯度下降法优化网络参数,最小化渲染图像与真实图像之间的误差。
位置编码:为了提高网络对高频信号(如细节纹理和几何)的表示能力,NeRF引入了位置编码(positional encoding),将输入坐标映射到高维空间。这一改进显著提升了渲染质量。
分层采样:为了进一步提高渲染效率,NeRF采用了分层采样策略,首先使用一个粗糙网络生成初步的采样点,然后使用一个精细网络对这些点进行细化。
NeRF在多个数据集上进行了实验,包括合成渲染对象和真实场景图像。实验结果表明,NeRF在生成新视角图像的质量上显著优于现有的方法。具体来说,NeRF在PSNR(峰值信噪比)、SSIM(结构相似性)和LPIPS(感知图像质量)等指标上均取得了最佳表现。此外,NeRF能够捕捉到复杂几何和材质的细节,生成逼真的渲染效果。
本文提出的NeRF方法通过将场景表示为5D神经辐射场,成功解决了视图合成中的关键问题。与传统的离散体素网格表示相比,NeRF不仅能够生成更高质量的渲染图像,还大大降低了存储成本。NeRF的研究为基于真实图像的图形学管线提供了新的思路,未来有望在虚拟现实、增强现实和计算机视觉等领域得到广泛应用。
NeRF的研究为视图合成领域带来了重要突破,其基于神经辐射场的场景表示方法不仅能够生成高质量的渲染图像,还具备高效存储和优化的优势。这一研究为未来的图形学和计算机视觉应用提供了新的可能性,具有重要的科学和应用价值。