分享自:

X-Portrait:基于分层运动注意力的富有表现力的肖像动画

期刊:ACM SIGGRAPH Conference Papers '24DOI:10.1145/3641519.3657459

学术报告:X-Portrait——基于分层运动注意力的表情肖像动画技术

作者与发表信息

本研究的核心作者包括You Xie、Hongyi Xu、Guoxian Song、Chao Wang、Yichun Shi和Linjie Luo,均来自字节跳动(Bytedance)美国研究院。该论文发表于SIGGRAPH Conference Papers ‘24(2024年7月27日-8月1日),是计算机图形学与交互技术领域的顶级会议论文。

学术背景

研究领域与动机
肖像动画(Portrait Animation)旨在通过驱动视频(Driving Video)的头部姿态和面部表情,将静态参考肖像(Reference Portrait)转化为动态序列。传统方法依赖生成对抗网络(GAN)的两阶段流程(形变+渲染),但面临细节丢失、运动范围受限和跨身份动画时的身份泄漏(Identity Leakage)问题。随着扩散模型(Diffusion Models)在图像生成中的突破,本研究提出X-Portrait,通过隐式运动控制和分层注意力机制,实现高保真、跨风格的肖像动画。

技术背景
1. 扩散模型:基于Stable Diffusion 1.5的生成先验,利用其隐空间多样性。
2. ControlNet:通过条件输入(如RGB图像)控制生成结构,但传统方法依赖显式标志点(Landmarks),导致表情细节丢失。
3. 跨身份训练:通过预训练网络(如Face Vid2Vid)生成跨身份控制图像,解耦运动与外观特征。

研究流程与方法

1. 核心架构设计

X-Portrait包含三个可训练模块:
- 外观参考模块(R):从参考肖像提取身份特征,通过交叉注意力注入UNet。
- 运动控制模块(C):以驱动视频帧为条件,通过ControlNet隐式解析运动结构,避免依赖第三方标志点检测器。
- 时序模块(M):基于AnimateDiff的时序Transformer,保障帧间连贯性。

2. 跨身份训练策略

关键创新
- 控制图像生成:使用Face Vid2Vid Plus生成跨身份控制图像(𝐼𝐶),其输入为随机源身份(𝐼𝑆′)与目标驱动帧(𝐼𝐷),通过L1和VGG感知损失优化局部细节(如眼球运动)。
- 随机缩放增强:对𝐼𝐶和局部掩膜图像(𝐼𝑙𝐶)施加[0.9, 1.1]的随机缩放,强制模型依赖参考肖像而非驱动帧的身份特征。

3. 分层运动注意力

  • 全局控制:原始驱动帧捕捉大范围头部运动。
  • 局部控制:通过128×128眼部与嘴部区域掩膜(𝐼𝑙𝐶)增强细微表情(如眉毛微皱)的注意力权重。

4. 实验设计

  • 数据集:550名被试的室内外视频(512×512分辨率),过滤低质量帧。
  • 基准对比:包括GAN基方法(Face Vid2Vid、DAGAN)和扩散基方法(MagicDance)。
  • 评估指标
    • 身份相似性:ArcFace余弦相似度。
    • 运动准确性:ARKit提取的混合形状(Blendshapes)与头部姿态的L1误差。
    • 图像质量:HyperIQA评分。

主要结果

  1. 定量性能

    • 在交叉重演(Cross Reenactment)任务中,X-Portrait的FID(14.553)显著优于MagicDance(30.383),身份相似性(0.689)最高。
    • 用户研究表明,83.23%的参与者认为其表情传递优于Face Vid2Vid Plus。
  2. 定性优势

    • 大范围运动:支持超过150度的头部旋转(图4)。
    • 细微表情:精准还原单眼眨眼、噘嘴等动作(图3b)。
    • 跨风格泛化:适用于动漫、油画等非真实感肖像(图6-7)。
  3. 消融实验

    • 去除局部控制:表情细节丢失(表2,混合形状误差增加10%)。
    • 去除随机缩放:身份泄漏加剧(相似性下降至0.658)。

结论与价值

科学意义
- 提出首个基于RGB隐式控制的肖像动画框架,摆脱对显式标志点的依赖。
- 通过跨身份缩放增强和分层注意力,实现运动-外观的完全解耦。

应用价值
- 视频会议:实时生成高保真虚拟形象。
- 影视特效:支持艺术化风格的表情驱动。

研究亮点

  1. 创新控制机制:直接以驱动帧RGB为条件,保留原始表情动力学。
  2. 通用性:零样本(Zero-Shot)支持未见过的肖像风格与运动。
  3. 开源贡献:代码与模型已公开,推动社区发展。

局限性与展望

  • 极端表情:当预训练网络完全失效时(如脸颊鼓气),迁移效果受限(图5)。
  • 未来方向:结合手势动画与更高阶扩散模型(如SDXL)提升细节质量。

(注:本文图表引用自原论文,实验细节可参考补充材料B节。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com