3D高斯混合形状(3D Gaussian Blendshapes)在头部虚拟形象动画中的创新研究
作者及发表信息
本研究的核心作者包括:
- Shengjie Ma(浙江大学CAD&CG国家重点实验室)
- Yanlin Weng(浙江大学CAD&CG国家重点实验室)
- Tianjia Shao(浙江大学CAD&CG国家重点实验室)
- Kun Zhou(通讯作者,浙江大学CAD&CG国家重点实验室)
该研究发表于SIGGRAPH Conference Papers ’24(2024年7月27日至8月1日,美国丹佛),是计算机图形学领域的顶级会议之一。论文标题为《3D Gaussian Blendshapes for Head Avatar Animation》。
学术背景
研究领域与动机
本研究属于计算机图形学与计算机视觉的交叉领域,聚焦于高保真头部虚拟形象(Head Avatar)的建模与实时动画合成。传统方法依赖网格混合形状(Mesh Blendshapes)或神经辐射场(Neural Radiance Fields, NeRF),但存在以下问题:
1. 网格混合形状:虽然计算高效,但难以捕捉高频细节(如皮肤纹理、镜面高光)。
2. NeRF方法:渲染质量高,但训练和推理速度慢,难以满足实时交互需求(如VR/AR应用)。
本研究提出3D高斯混合形状(3D Gaussian Blendshapes),结合了混合形状的线性控制优势与3D高斯泼溅(3D Gaussian Splatting, 3DGS)的高效渲染能力,目标是在保持实时性能(370 FPS)的同时,实现媲美NeRF的 photorealism(照片级真实感)。
技术背景
- 混合形状模型(Blendshape Models):经典参数化面部模型(如FLAME、FaceWarehouse)通过线性组合基础表情网格生成动画。
- 3D高斯泼溅(3DGS):将静态场景表示为3D高斯分布,支持实时渲染,但此前未用于动态表情控制。
研究方法与流程
1. 高斯混合形状的构建
输入:单目视频(1080p分辨率,约4500帧)。
核心步骤:
1. 数据预处理:
- 使用[Zielonka et al. 2022]的面部跟踪器提取FLAME模型的中性表情网格(M₀)和50个基础表情网格({Mₖ}),并计算每帧的相机参数、关节姿态参数和表情系数。
- 提取前景头部掩码(Foreground Head Mask)以约束高斯分布范围。
初始化高斯模型:
- 中性模型(B₀):通过泊松圆盘采样(Poisson Disk Sampling)在M₀表面分布约5万个高斯点,初始化其位置、旋转、透明度、尺度及球谐系数(Spherical Harmonics, SH)。
- 表情混合形状({Bₖ}):通过变形梯度(Deformation Gradients)将B₀的高斯点映射到各表情网格Mₖ,生成初始差异δBₖ = Bₖ − B₀。
- 口腔内部高斯(Bₘ):用2个预定义广告牌(Billboard)表示上下牙齿,绑定至下颌关节。
联合优化:
- 线性混合:任意表情的虚拟形象通过公式 Bᵩ = B₀ + ∑ψₖδBₖ 生成,其中ψₖ为表情系数。
- 姿态控制:通过线性混合蒙皮(Linear Blend Skinning, LBS)将高斯点变换到目标姿态。
- 语义一致性约束:提出中间变量δGᵢₖ,确保高斯差异δBₖ与网格差异δMₖ成比例(公式2),避免过拟合。
2. 损失函数设计
- 图像损失(Lᵣ₉₆):结合L1损失与D-SSIM(结构相似性)度量渲染图像与真实帧的差异。
- 透明度损失(Lₐ):约束高斯点位于头部掩码区域内。
- 口腔正则化(Lᵣₑ₉):强制口腔高斯点保持在预定义圆柱体积内。
3. 实时渲染
使用改进的3DGS渲染器,支持70k高斯点的实时泼溅(370 FPS @ RTX 4090)。
主要结果
质量对比:
- 在PSNR、SSIM指标上优于Insta [Zielonka et al. 2023]和PointAvatar [Zheng et al. 2023],尤其在捕捉高频细节(皱纹、眼镜反光)方面表现突出(图13)。
- 与NeRFBlendshape [Gao et al. 2022]相比,眼球运动还原更准确(图5)。
性能优势:
- 训练时间25分钟(A800 GPU),推理速度370 FPS(70k高斯点),远超NeRF-based方法的26 FPS(表3)。
跨身份重演(Cross-Identity Reenactment):成功将源视频表情迁移至目标虚拟形象,保留个性化特征(图7)。
结论与价值
科学价值
- 创新表示方法:首次将3D高斯与混合形状结合,兼具参数化控制的灵活性与神经渲染的逼真度。
- 语义一致性优化:通过中间变量δGᵢₖ解决了高斯属性与网格位移的同步问题,为动态高斯建模提供新思路。
应用价值
- 实时交互场景:适用于VR/AR、远程呈现(Telepresence)等需低延迟的领域。
- 影视制作:可快速生成高保真数字角色动画,降低制作成本。
研究亮点
- 实时性与质量平衡:370 FPS的渲染速度下仍保持照片级真实感。
- 无需神经网络:仅依赖线性代数运算,避免了NeRF的复杂推理开销。
- 开源贡献:代码已公开(https://gapszju.github.io/gaussianblendshape)。
局限性
- 侧视图渲染缺陷:若训练数据缺乏侧视图,可能出现伪影(图11)。
- 夸张表情外推:线性混合模型对训练集外表情的泛化能力有限。
其他有价值内容
- 伦理声明:作者强调反对将技术用于Deepfake等恶意用途。
- 扩展性:未来可探索动态头发建模,进一步提升虚拟形象的完整度。
(全文约2000字)