TGAvatar：基于Transformer三平面重建3D高斯化身

分享自：
TGAvatar：基于Transformer三平面重建3D高斯化身

期刊:Journal of LaTeX Class FilesDOI:10.1109/tcsvt.2025.3543892
类型a
主要作者与研究机构及发表信息
 本研究的主要作者包括Ruigang Hu、Xuekuan Wang、Yichao Yan以及Cairong Zhao（IEEE会员），他们均来自同济大学电子与信息工程学院。该研究于2021年8月发表在《Journal of Latex Class Files》第14卷第8期。
学术背景
 本研究属于计算机视觉和3D建模领域，专注于3D高斯点云（3D Gaussian Splatting, 3DGS）技术的改进及其在面部动画和重建中的应用。随着虚拟现实（VR）、增强现实（AR）和数字娱乐的发展，对高度逼真的数字化人类头像的需求日益增长。传统的3D可变形模型（3D Morphable Models, 3DMM）虽然能够生成多样的面部几何形状和表情，但其依赖线性组合的方式限制了细节和纹理的表现力，尤其是在实时渲染或复杂光照条件下。神经辐射场（NeRF）等深度学习方法虽然能够生成高质量的图像，但计算成本较高且难以实现实时动态内容生成。因此，本研究旨在通过结合3D高斯点云技术和先进的建模方法，开发一种新的框架TGAvatar，以实现高质量、高效的3D头部动画和重建。
研究流程
 本研究包含以下主要步骤：
数据准备与预处理
 研究对象为公开数据集中的单目肖像视频，每个受试者的训练数据包含约3000至4000帧RGB图像、3DMM拟合得到的表情参数、相机参数和二值掩码。测试数据为最后10%的帧。二值掩码通过ModNet生成，用于去除背景。
模型架构设计
 TGAvatar的核心架构包括三个模块：基于特征混合（Feature Blending）的3D高斯点云表示、基于Transformer的三平面解码器（Tri-Plane Decoder）以及MLP网络。
特征混合技术：受到3DMM启发，该技术将姿态、旋转和缩放参数分解为基础和偏置项，并通过表情权重进行线性混合，从而灵活地捕捉细微的面部表情变化。
 
三平面解码器：采用6层Transformer架构，通过交叉注意力机制将三平面特征与表情向量结合，生成精确的不透明度（Alpha）和球谐函数（Spherical Harmonics, SH）系数。
 
MLP网络：将三平面解码器输出的混合特征输入MLP网络，预测每个高斯点的Alpha和SH系数。
 
训练过程
 模型训练分为多个阶段：初始阶段随机初始化高斯点的位置、旋转和缩放参数；随后通过自适应稠密化和剪枝机制优化高斯点分布。损失函数包括L1损失、结构相似性指数（SSIM）损失和感知损失（Perceptual Loss）。训练过程中使用NVIDIA GTX3090 GPU，总迭代次数为100,000次，耗时约2小时。
实验验证
 实验部分包括四个场景：头部重建、新视角合成、跨主体表情驱动和光照条件变化下的性能评估。此外，还进行了消融实验以验证各模块的重要性。
主要结果
 1. 头部重建实验
 在与其他方法（如Insta、FlashAvatar和GaussianBlendshapes）的对比中，TGAvatar在捕捉牙齿、眼睛、皱纹和反射等细节方面表现最佳。定量结果显示，TGAvatar在L1误差（0.0083）、峰值信噪比（PSNR，33.49）、结构相似性指数（SSIM，0.952）和感知相似性指数（LPIPS，0.071）上均优于其他方法。
新视角合成实验
 TGAvatar在生成的新视角中保持了面部特征的结构完整性和细节纹理，例如皮肤毛孔和微妙的表情变化。
跨主体表情驱动实验
 在将源主体的表情迁移到目标主体的任务中，TGAvatar能够准确捕捉目标主体的细微表情变化，同时保留其独特身份特征。
光照条件变化实验
 在不同光照条件下，TGAvatar表现出较强的鲁棒性，性能仅略有下降（LPIPS增加0.004）。
消融实验
 移除三平面模块、特征混合技术或感知损失后，模型性能显著下降，表明这些模块的重要性。
结论与意义
 本研究提出的TGAvatar框架通过结合3D高斯点云技术和先进的建模方法，在3D头部动画和重建领域实现了突破。其科学价值在于提出了基于特征混合的高斯点云表示和基于Transformer的三平面解码器，显著提升了渲染质量和效率。应用价值体现在虚拟现实、增强现实和数字娱乐等领域，能够为用户提供高度逼真的数字化人类头像。
研究亮点
 1. 重要发现：TGAvatar在捕捉细微面部表情和复杂光照效果方面表现优异。
 2. 方法创新：首次将特征混合技术和三平面解码器引入3D高斯点云框架。
 3. 特殊性：能够在实时帧率下生成高质量的3D头像。
其他有价值内容
 研究还探讨了当前方法的局限性，例如对训练数据多样性的依赖和极端光照条件下的性能下降，并提出了未来改进方向，包括优化光照适应性和扩展表情表达能力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问