分享自:

可重照明的4D高斯化身从单目视频中重建的研究

期刊:IEEE Transactions on Visualization and Computer GraphicsDOI:10.1109/tvcg.2025.3543603

类型a:这篇文档报告了一项原创研究。

主要作者和机构以及发表信息
本研究的主要作者包括范哲(Zhe Fan)、黄世胜(Shi-Sheng Huang)、张一驰(Yichi Zhang)、尚大超(Dachao Shang)、张举勇(Juyong Zhang)、郭玉东(Yudong Guo)和黄华(Hua Huang,IEEE高级会员)。范哲和张一驰隶属于北京理工大学计算科学与技术学院;黄世胜、尚大超和黄华隶属于北京师范大学人工智能学院;张举勇和郭玉东隶属于中国科学技术大学数学科学学院。该研究于2024年被《IEEE Transactions on Visualization and Computer Graphics》接收并发表。

学术背景
这项研究属于计算机图形学和计算机视觉领域,重点是基于单目视频的可重光照4D高斯头像重建。近年来,随着神经辐射场(NeRF)等隐式表示方法的成功应用,4D头像重建在虚拟现实(VR)、增强现实(AR)、视频游戏、远程会议和电影制作等领域展现出广泛的应用前景。然而,现有的4D头像重建方法存在两个主要问题:一是基于NeRF的方法虽然能够实现高质量的重光照效果,但渲染速度过慢;二是基于点云或网格的方法尽管效率较高,但渲染质量有限。此外,尽管3D高斯点云(3D Gaussian Splatting, 3DGS)的成功启发了一系列令人印象深刻的4D高斯头像模型,但这些模型大多仅关注外观重建,无法支持重光照应用。为了解决这些问题,本研究提出了一种新的可重光照4D高斯头像模型(RGAvatar),旨在通过单目视频实现高保真且高效的可重光照渲染。

研究流程
本研究的工作流程包括以下几个关键步骤:

  1. 数据预处理
    研究使用了公开数据集中的单目视频,涵盖15个不同个体,每位个体的视频平均包含约3000帧RGB图像,分辨率为512×521。研究首先利用MICA(一种3D头像追踪工具)提取每帧视频的姿态和表情参数,并结合FLAME模型进行线性混合蒙皮(LBS)以生成动态变形场。

  2. 紧凑4D高斯重建
    研究引入了一种新的可重光照4D高斯表示(R-4DGS),并通过紧凑的4D高斯重建对其进行优化。具体而言,研究将每个4D高斯定义为一组参数(如位置、尺度、旋转、BRDF材质参数等),并通过一个额外的符号距离场(SDF)约束来确保高斯点紧密贴合底层几何表面。SDF场由一个多层感知机(MLP)网络预测,同时通过几何正则化和法线正则化进一步提高重建精度。

  3. 神经材质和光照分解
    在完成紧凑4D高斯重建后,研究进一步估计了每个4D高斯的材质和光照因子。研究通过物理基础渲染(PBR)公式直接对每个4D高斯进行渲染,并利用一个轻量级MLP网络预测动态光可见性(visibility)。此外,研究还引入了几何感知的光可见性预测机制,以更准确地分解材质和光照。

  4. 实验设计与评估
    研究在自收集的数据集上进行了广泛的实验评估,包括定量比较和定性比较。定量比较涉及PSNR、SSIM、LPIPS、MSE和L1等指标,而定性比较则通过可视化结果展示不同方法在几何重建、材质估计和重光照效果上的差异。

主要结果
1. 紧凑4D高斯重建的质量
实验结果表明,RGAvatar在几何重建方面显著优于现有方法。例如,在图8中,研究展示了与其他两种4D高斯头像模型(FlashAvatar和SplattingAvatar)的对比结果,证明了RGAvatar在几何精度和紧凑性方面的优势。

  1. 重光照效果
    在重光照任务中,RGAvatar表现出色。图7展示了RGAvatar与PointAvatar和Flare的对比结果,证明了RGAvatar在不同环境光照下的高质量重光照能力。此外,研究还发现几何感知的光可见性预测机制对提升材质估计和光照分解的准确性至关重要。

  2. 时间效率分析
    RGAvatar在渲染速度上也表现出显著优势。表3显示,RGAvatar的平均渲染速度为16帧/秒,远高于Flare(5.4帧/秒)和PointAvatar(2.5帧/秒)。这主要得益于研究中提出的紧凑4D高斯表示和高效的渲染流程。

结论与意义
本研究提出了一种新的可重光照4D高斯头像模型(RGAvatar),在单目视频的基础上实现了高保真且高效的可重光照渲染。研究的主要贡献包括:
1. 提出了一种新的可重光照4D高斯表示(R-4DGS),能够直接进行物理基础渲染;
2. 引入了几何感知的光可见性预测机制,提高了材质和光照分解的准确性;
3. 设计了一种紧凑的4D高斯重建方法,显著提升了几何重建的精度和效率。

该研究在理论和应用层面均具有重要意义。在理论上,RGAvatar为4D头像重建领域提供了新的思路,尤其是在紧凑几何表示和高效渲染流程方面。在应用层面,RGAvatar可广泛应用于VR/AR、视频游戏和远程会议等领域,为实时高质量头像渲染提供了技术支持。

研究亮点
1. 创新性方法
研究首次将符号距离场(SDF)约束引入4D高斯重建,显著提升了几何精度和紧凑性。此外,几何感知的光可见性预测机制也为材质和光照分解提供了新的解决方案。

  1. 高效性与高质量的平衡
    RGAvatar在渲染速度和质量之间实现了良好的平衡,既保证了高保真的渲染效果,又具备高效的实时渲染能力。

  2. 广泛的适用性
    研究不仅适用于单目视频,还可扩展至其他动态场景的4D重建任务,具有较高的通用性。

其他有价值内容
研究还讨论了当前方法的局限性,例如对复杂光照条件和眼部材质建模的不足,并提出了未来改进的方向。此外,研究强调了伦理问题,指出该技术可能被用于生成未经同意的虚拟内容,呼吁加强相关技术和法律监管。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com