本文档属于类型a(单篇原创研究论文),以下是针对ICLR 2025会议论文《DISPOSE: Disentangling Pose Guidance for Controllable Human Image Animation》的学术报告:
本研究由北京大学李宏翔(Hongxiang Li)、李耀伟(Yaowei Li)、中国科学技术大学杨宇航(Yuhang Yang)、清华大学曹俊杰(Junjie Cao)、北京大学朱志宏(Zhihong Zhu)、程旭新(Xuxin Cheng)及香港科技大学陈龙(Long Chen,通讯作者)共同完成,发表于机器学习顶会ICLR 2025。
研究领域:可控人类图像动画(Controllable Human Image Animation),属于计算机视觉与生成模型的交叉领域。
研究动机:现有方法依赖稀疏骨架姿态(sparse skeleton pose)或密集条件(dense conditions,如深度图)控制动画生成,但面临两大挑战:(1)密集条件对参考图像与驱动视频的体型差异敏感,易导致生成失真;(2)稀疏姿态的引导信息有限,难以保持外观一致性。
研究目标:提出无需额外密集输入的通用控制信号,通过解耦姿态引导(disentangling pose guidance)提升动画质量与泛化性。
研究提出DISPOSE框架,包含三个关键模块:
- 运动场引导(Motion Field Guidance):
- 稀疏运动场:通过DWpose提取骨架关键点轨迹,计算位移矩阵(track matrix),经高斯滤波生成稀疏运动场(sparse motion field)。
- 稠密运动场:基于条件运动传播(Conditional Motion Propagation, CMP)算法,将参考图像与稀疏光流(sparse optical flow)结合,预测稠密运动场(dense motion field),避免对目标姿态的几何约束。
- 运动编码器:采用多尺度卷积编码器融合稀疏与稠密运动特征。
关键点对应(Keypoint Correspondence):
混合控制网络(Hybrid ControlNet):
定量对比:
定性分析:
消融实验:
科学价值:
1. 提出首个通过解耦姿态引导实现可控人类动画的即插即用模块,无需依赖密集条件输入。
2. 揭示了骨架关键点的语义嵌入对保持外观一致性的关键作用,为生成模型的特征对齐提供新思路。
应用价值:
- 可集成至现有动画工具(如AnimateAnyone),提升艺术创作与数字人生成的效率与质量。
- 开源代码(GitHub: lihxxx/dispose)推动社区发展。
方法创新:
技术突破:
局限性:
(注:实际报告中图表引用需替换为原文对应编号,此处因格式限制简化处理。)