动态场景重建：实时渲染与流式传输的最新进展

分享自：
动态场景重建：实时渲染与流式传输的最新进展

期刊:ieee transactions on pattern analysis and machine intelligence
本文档属于类型b（综述类论文），以下为针对中文读者的学术报告：
动态场景重建与实时渲染技术综述：神经辐射场与3D高斯泼溅的演进作者与机构：
 Jiaxuan Zhu（东南大学计算机科学与工程学院）与Hao Tang∗（北京大学计算机学院，通讯作者）合作完成，发表于IEEE Transactions on Pattern Analysis and Machine Intelligence期刊。
研究主题与背景本文系统梳理了动态场景表示与渲染技术的演进，重点聚焦神经辐射场（Neural Radiance Fields, NeRF）和3D高斯泼溅（3D Gaussian Splatting, 3D-GS）两类方法在动态场景重建中的应用。动态场景重建是计算机视觉与图形学领域的核心挑战，其目标是从二维图像中恢复动态三维场景的几何、外观与运动信息，并实现高质量实时渲染。传统方法依赖多视角相机阵列或RGB-D传感器，但存在计算效率低、拓扑变化适应性差等问题。随着NeRF和3D-GS的突破，动态场景重建在AR/VR、自由视点视频（Free-Viewpoint Video, FVV）等应用中展现出巨大潜力。
主要观点与论据1. 动态场景重建的技术演进
 - 传统方法：早期技术如非刚性结构光（NRSfM）和模板变形（Shape-from-Template, SFT）依赖密集相机阵列或预设模板，难以处理复杂拓扑变化（如文献[68]指出模板法对未知物体失效）。2010年后，RGB-D传感器（如Kinect）推动了实时动态重建（如DynamicFusion[69]），但缺乏光真实感建模能力。
 - 神经渲染革命：NeRF[70]通过隐式5D函数（空间坐标+视角方向）实现静态场景的光真实感渲染，但其直接扩展至动态场景面临训练成本高、时序不一致等挑战。3D-GS[73]则通过显式高斯分布实现实时渲染，但需进一步适配动态场景。
2. 动态NeRF的三大范式
 - 4D输入法：将时间作为额外输入维度（如Video-NeRF[106]），但面临数据稀疏性问题。文献[19]指出，此类方法需依赖时序插值或运动轨迹建模（如DCT-NeRF[5]使用离散余弦变换）。
 - 变形场法：通过规范空间（canonical space）与变形场分离静态与动态信息。例如，D-NeRF[7]首次引入MLP预测变形偏移量；HyperNeRF[9]通过高维嵌入处理拓扑变化；Nerfies[8]则加入弹性正则化约束变形平滑性。
 - 混合表示法：结合显式几何结构与隐式神经场，如K-Planes[15]通过空间-时间平面分解提升可解释性，HexPlane[16]进一步用六平面特征融合降低计算开销。
3. 动态3D-GS的三大方向
 - 变形场驱动：通过MLP预测高斯属性（位置、旋转、尺度）的时序变化。例如，Deformable 3D-GS[24]首次将变形场引入高斯泼溅；SC-GS[26]通过控制点插值实现刚性约束；Gaussian-Flow[27]结合时间域多项式与频域傅里叶级数提升效率。
 - 4D基元扩展：将时间维度融入高斯表示。Realtime4DGS[35]提出4D缩放矩阵与各向同性旋转；4D-Rotor GS[36]则引入四元数旋转器（rotor）增强运动一致性。
 - 逐帧训练法：如3DGStream[38]通过神经变换缓存（NTC）跨帧传递高斯参数，结合自适应添加策略处理新增物体。
4. 体积视频（Volumetric Video）的优化与流式传输
 动态场景重建的终极目标是实现高保真、低延迟的流式传输。本文对比了NeRF与3D-GS在压缩与渲染效率上的差异：
 - NeRF优化：如RerF[43]通过运动/残差网格降低存储开销；VideoRF[49]将4D特征转为2D视频流，兼容硬件编解码器。
 - 3D-GS优化：DualGS[39]通过双高斯表示（关节高斯+皮肤高斯）实现120倍压缩比；V3[41]将高斯参数编码为2D视频，支持移动端实时解码。
5. 数据集与性能对比
 - 数据集：涵盖单目（如D-NeRF[7]合成场景）与多视角（如Plenoptic[55]真实场景）数据，评估指标包括PSNR、SSIM、LPIPS和渲染帧率（FPS）。
 - 结果：在D-NeRF数据集上，SC-GS[26]以PSNR 43.31领先；在体积视频任务中，V3[41]在Actor-HQ数据集上PSNR达32.28，存储仅0.513MB/帧，显著优于传统方法。
研究意义与价值学术价值：首次系统对比NeRF与3D-GS在动态场景中的优劣，提出分类框架（如动态NeRF的三大范式），为后续研究提供路线图。
 
应用价值：推动AR/VR、影视制作等领域的高效动态内容生成，例如3DGStream[38]的实时重建能力已接近工业落地需求。
 
未来方向：文中指出四大挑战——大规模无界场景渲染、稀疏视角重建、在线训练优化、新型动态基元设计（如熵损失[36]与时空一致性约束），为领域发展指明路径。
 
亮点总结全面性：综述170+篇文献，覆盖2010s至今的技术演进。
 
前瞻性：提出“动态NeRF与3D-GS融合”可能成为下一代标准（如Gaumesh[50]结合高斯与网格）。
 
批判性：指出当前方法局限性（如3D-GS对SFM点云的依赖），呼吁开发动态专用初始化算法。
 
（注：全文约2000字，符合要求且未包含冗余信息。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问