本研究的核心作者包括You Xie、Hongyi Xu、Guoxian Song、Chao Wang、Yichun Shi和Linjie Luo,均来自字节跳动(Bytedance)美国研究院。该论文发表于SIGGRAPH Conference Papers ‘24(2024年7月27日-8月1日),是计算机图形学与交互技术领域的顶级会议论文。
研究领域与动机
肖像动画(Portrait Animation)旨在通过驱动视频(Driving Video)的头部姿态和面部表情,将静态参考肖像(Reference Portrait)转化为动态序列。传统方法依赖生成对抗网络(GAN)的两阶段流程(形变+渲染),但面临细节丢失、运动范围受限和跨身份动画时的身份泄漏(Identity Leakage)问题。随着扩散模型(Diffusion Models)在图像生成中的突破,本研究提出X-Portrait,通过隐式运动控制和分层注意力机制,实现高保真、跨风格的肖像动画。
技术背景
1. 扩散模型:基于Stable Diffusion 1.5的生成先验,利用其隐空间多样性。
2. ControlNet:通过条件输入(如RGB图像)控制生成结构,但传统方法依赖显式标志点(Landmarks),导致表情细节丢失。
3. 跨身份训练:通过预训练网络(如Face Vid2Vid)生成跨身份控制图像,解耦运动与外观特征。
X-Portrait包含三个可训练模块:
- 外观参考模块(R):从参考肖像提取身份特征,通过交叉注意力注入UNet。
- 运动控制模块(C):以驱动视频帧为条件,通过ControlNet隐式解析运动结构,避免依赖第三方标志点检测器。
- 时序模块(M):基于AnimateDiff的时序Transformer,保障帧间连贯性。
关键创新:
- 控制图像生成:使用Face Vid2Vid Plus生成跨身份控制图像(𝐼𝐶),其输入为随机源身份(𝐼𝑆′)与目标驱动帧(𝐼𝐷),通过L1和VGG感知损失优化局部细节(如眼球运动)。
- 随机缩放增强:对𝐼𝐶和局部掩膜图像(𝐼𝑙𝐶)施加[0.9, 1.1]的随机缩放,强制模型依赖参考肖像而非驱动帧的身份特征。
定量性能
定性优势
消融实验
科学意义
- 提出首个基于RGB隐式控制的肖像动画框架,摆脱对显式标志点的依赖。
- 通过跨身份缩放增强和分层注意力,实现运动-外观的完全解耦。
应用价值
- 视频会议:实时生成高保真虚拟形象。
- 影视特效:支持艺术化风格的表情驱动。
(注:本文图表引用自原论文,实验细节可参考补充材料B节。)