本研究由蚂蚁集团支付宝终端技术部门的Rang Meng、Xingyu Zhang、Yuming Li*和Chenguang Ma*(*通讯作者)共同完成,论文以《EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation》为题,计划在计算机视觉领域顶级会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上发表。开源代码已发布于GitHub(https://github.com/antgroup/echomimic-v2)。
科学领域与问题背景
EchoMimicV2属于人工智能生成内容(AIGC)中的人体动画生成领域,聚焦于音频驱动的半身人体动画合成。现有方法存在两大瓶颈:
1. 头部区域限制:多数工作(如AniPortrait、HALO)仅生成头部动画,忽略音频与下半身动作的同步;
2. 条件注入复杂性:现有框架依赖多模态控制信号(如文本、姿态、光流),导致训练不稳定、推理延迟高。
研究目标
团队提出三方面创新:
- 通过音频-姿态动态协调策略(APDH, Audio-Pose Dynamic Harmonization)简化控制条件,仅需音频、参考图像和手部姿态序列;
- 设计阶段特异性去噪损失(PHD Loss)替代冗余条件指导;
- 构建首个半身人体动画评估基准EMTD。
基于潜在扩散模型(LDM, Latent Diffusion Model),框架包含以下模块:
- 参考网络(ReferenceNet):从参考图像提取特征,通过交叉注意力保持外观一致性;
- 音频编码器:采用预训练Wav2Vec模型生成音频嵌入;
- 姿态编码器:提取手部关键点作为稀疏姿态条件;
- 时序注意力模块:确保帧间运动平滑性。
在自建基准EMTD上对比现有方法:
| 方法 | FID↓ | FVD↓ | Sync-C↑ | HKC↑ |
|——————–|——-|——-|——–|——|
| AnimateAnyone[16] | 58.98 | 1016 | 0.987 | 0.809|
| CyberHost[20] | - | - | 1.495 | 0.907|
| EchoMimicV2 | 49.33 | 598 | 7.219 | 0.923|
关键发现:
- APDH策略使手部关键点方差(HKV)提升14%,证明手势丰富性;
- 消融实验显示,移除初始姿态阶段会导致FID上升1.3%,验证全姿态预训练的必要性。
本研究通过算法创新与工程优化,为简化控制条件下高质量人体动画生成提供了新范式,相关代码与数据集将开源以推动社区发展。