分享自:

解耦姿态引导的可控人体图像动画

期刊:ICLR 2025

本文档属于类型a(单篇原创研究论文),以下是针对ICLR 2025会议论文《DISPOSE: Disentangling Pose Guidance for Controllable Human Image Animation》的学术报告:


一、作者与发表信息

本研究由北京大学李宏翔(Hongxiang Li)、李耀伟(Yaowei Li)、中国科学技术大学杨宇航(Yuhang Yang)、清华大学曹俊杰(Junjie Cao)、北京大学朱志宏(Zhihong Zhu)、程旭新(Xuxin Cheng)及香港科技大学陈龙(Long Chen,通讯作者)共同完成,发表于机器学习顶会ICLR 2025。

二、学术背景

研究领域:可控人类图像动画(Controllable Human Image Animation),属于计算机视觉与生成模型的交叉领域。
研究动机:现有方法依赖稀疏骨架姿态(sparse skeleton pose)或密集条件(dense conditions,如深度图)控制动画生成,但面临两大挑战:(1)密集条件对参考图像与驱动视频的体型差异敏感,易导致生成失真;(2)稀疏姿态的引导信息有限,难以保持外观一致性。
研究目标:提出无需额外密集输入的通用控制信号,通过解耦姿态引导(disentangling pose guidance)提升动画质量与泛化性。

三、研究方法与流程

1. 核心框架设计

研究提出DISPOSE框架,包含三个关键模块:
- 运动场引导(Motion Field Guidance)
- 稀疏运动场:通过DWpose提取骨架关键点轨迹,计算位移矩阵(track matrix),经高斯滤波生成稀疏运动场(sparse motion field)。
- 稠密运动场:基于条件运动传播(Conditional Motion Propagation, CMP)算法,将参考图像与稀疏光流(sparse optical flow)结合,预测稠密运动场(dense motion field),避免对目标姿态的几何约束。
- 运动编码器:采用多尺度卷积编码器融合稀疏与稠密运动特征。

  • 关键点对应(Keypoint Correspondence)

    • 从参考图像提取DIFT(Diffusion Features)特征,定位骨架关键点的语义嵌入(point embedding)。
    • 通过多尺度点编码器(multi-scale point encoder)将特征映射至目标姿态,保持外观一致性。
  • 混合控制网络(Hybrid ControlNet)

    • 将运动场与关键点特征注入冻结的U-Net架构,以残差形式控制生成过程,兼容现有动画模型(如Stable Diffusion和Stable Video Diffusion)。

2. 实验设计

  • 基线模型:在Musepose(基于Stable Diffusion 1.5)和MimicMotion(基于Stable Video Diffusion)上验证模块有效性。
  • 数据集:收集3,000段互联网视频,训练时采样16帧,分辨率512×512(Musepose)或768×1024(MimicMotion)。
  • 评估指标
    • 定量指标:FID-FVD(Frechet Inception Distance with Fréchet Video Distance)、FVD、CD-FVD(Content-Debiased FVD)及VBench(涵盖时间闪烁、主体一致性等7项人工感知指标)。
    • 定性分析:跨身份动画(cross-identity animation)与多视角生成能力。

四、主要结果

  1. 定量对比

    • 在TikTok数据集上,DISPOSE将Musepose的VBench总分从97.02提升至97.63,FID-FVD从866.36降至764.00;MimicMotion的FVD从621.90优化至603.27。
    • 在未见数据集(unseen dataset)上,主体一致性(subject consistency)提升0.25分(94.12→94.35),证明其泛化性。
  2. 定性分析

    • 运动场引导:相比CHAMP(依赖SMPL模型生成的深度图),DISPOSE避免了因体型差异导致的失真(如面部与手部变形)(图4)。
    • 关键点对应:通过DIFT特征对齐,显著提升细节一致性(如服装纹理与面部特征)(图7)。
  3. 消融实验

    • 移除运动场引导(w/o motion)导致FID-FVD上升12.8%;移除关键点对应(w/o point)降低主体一致性1.3分(表3)。
    • CMP算法使背景一致性(background consistency)提升0.92分(表5)。

五、结论与价值

科学价值
1. 提出首个通过解耦姿态引导实现可控人类动画的即插即用模块,无需依赖密集条件输入。
2. 揭示了骨架关键点的语义嵌入对保持外观一致性的关键作用,为生成模型的特征对齐提供新思路。

应用价值
- 可集成至现有动画工具(如AnimateAnyone),提升艺术创作与数字人生成的效率与质量。
- 开源代码(GitHub: lihxxx/dispose)推动社区发展。

六、研究亮点

  1. 方法创新

    • 首次将姿态引导解耦为运动场与关键点对应,兼顾稀疏控制的泛化性与稠密信号的精确性。
    • 提出参考图像驱动的稠密运动场生成策略,避免对驱动视频的几何依赖。
  2. 技术突破

    • 在Stable Diffusion和Stable Video Diffusion两大范式上验证通用性,FVD指标均优于ControlNext等SOTA方法。
  3. 局限性

    • 对多视角生成(multi-view synthesis)的支持有限,未来可结合3D姿态控制进一步优化(图8)。

七、其他价值

  • 伦理声明:强调生成内容的合规性,所有案例(除TikTok数据集外)均为虚构,避免技术滥用。
  • 训练效率:DISPOSE仅需20,000步训练(Musepose),参数量较基线减少68.5%(表7)。

(注:实际报告中图表引用需替换为原文对应编号,此处因格式限制简化处理。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com