分享自:

深度舞蹈:基于外观无关深度引导的复杂姿态人体图像动画

期刊:ICCV Workshop

深度引导复杂姿态人体动画生成研究:DepthDance框架学术报告

作者及机构
本研究由Yingjie Xi(Bournemouth University)、Zhengze Xu(Alibaba)、Zhao Wang(Alibaba)等联合完成,发表于ICCV Workshop(计算机视觉国际会议研讨会)。

学术背景
1. 研究领域
本研究属于计算机视觉与生成式人工智能交叉领域,聚焦于人体图像动画生成(Human Image Animation),旨在通过静态参考图像和目标姿态序列生成高质量动态视频。

  1. 研究动机
    现有方法主要依赖骨架姿态估计(Pose Estimation)作为运动控制信号,但在复杂姿态(如倒立、街舞动作)场景下,传统姿态估计器(如DW Pose)易失效,导致生成结果出现对齐偏差或时序断裂。而深度图(Depth Map)在复杂场景中表现出更强的鲁棒性,但直接使用深度图会引入外观信息泄漏问题(Appearance Leakage),即深度图中隐含的纹理、体型等无关特征干扰运动迁移。

  2. 研究目标

    • 提出DepthDance框架,以深度图为唯一控制信号,实现跨身份(Identity)的复杂运动生成。
    • 设计辅助深度信息注入方法(ADI²M,Auxiliary Depth Information Injection Method),解决深度图的外观泄漏问题。
    • 开发姿态课程学习策略(PCURLS,Pose Curriculum Learning Strategy),通过渐进式训练提升模型对复杂运动的泛化能力。

研究流程与方法

  1. 数据准备与预处理

    • 数据集构建:从互联网收集100小时人体运动视频(涵盖街舞、武术等复杂动作),构建DepthBench数据集。
    • 数据处理
      • 使用YOLO+SAM2提取人体前景掩膜(Mask),计算最小凸包防止边缘泄漏。
      • 通过DW Pose生成2D骨架序列,DepthAnythingV2生成深度图序列。
  2. ADI²M模块设计

    • 问题根源:深度图包含体型、服装等外观信息,直接训练会导致模型混淆运动与外观特征。
    • 解决方案
      • 伪深度图生成:利用预训练的骨架驱动模型生成不同身份(性别、服装)的动画帧,再提取其深度图作为伪标签(Pseudo Depth),确保运动一致但外观多样。
      • 混合条件训练:简单动作用伪深度图,复杂动作用真实深度图,平衡外观解耦与运动保真。
  3. DepthDance核心架构

    • 双U-Net结构
      • 参考U-Net(Ref U-Net):编码参考图像的细粒度服装特征。
      • 主U-Net:输入9通道张量(含掩膜帧、潜在噪声、深度图),结合CLIP图像编码器提取高级语义。
    • 深度引导器(Depth Guider):轻量级卷积模块,将深度图对齐到噪声潜在空间分辨率。
  4. PCURLS训练策略

    • 运动复杂度量化:基于3D关节旋转角计算帧间运动差异,将训练集分为12个难度等级。
    • 渐进式训练
      • 数据集更新:从低难度子集开始,逐步引入高复杂度数据。
      • 条件选择器(Cond Selector):动态切换骨架与深度条件(Dropout Rate从0增至1),逐步过渡到纯深度监督。

主要实验结果

  1. 定量对比(TikTok数据集):

    • 指标优势:DepthDance在L1(4.67e-05)、PSNR(30.75)、FID-Vid(48.13)等指标均优于MagicAnimate、AnimateAnyone等基线模型。
    • 修复式生成(Inpainting-based)表现更优,因其直接复用原始背景(SSIM达0.818)。
  2. 复杂场景泛化性

    • 在DepthBench的困难样本(骨架估计失效案例)中,DepthDance的FVD(516.48)显著低于骨架驱动方法(如Moore-AnimateAnyone的2097.94)。
    • 定性结果显示,模型可处理倒立、快速旋转等极端动作(图1)。
  3. 消融实验

    • ADI²M有效性:移除伪深度图后,FID-Vid上升62%(从48.13→78.26)。
    • PCURLS必要性:直接训练全难度数据导致复杂动作生成质量下降(FVD增加40%)。

结论与价值

  1. 科学贡献

    • 首次证明深度图作为单一控制信号在复杂人体动画中的优越性,提出外观-运动解耦的理论框架。
    • ADI²M通过混合条件训练解决了深度图的外观泄漏问题,PCURLS通过课程学习突破数据分布偏差。
  2. 应用价值

    • 为虚拟试衣、影视特效等需高保真复杂运动的场景提供解决方案。
    • 开源DepthBench数据集推动领域标准化评估。

研究亮点
- 方法创新:ADI²M的伪深度生成策略与PCURLS的渐进式条件切换均为首创。
- 性能突破:在复杂姿态下FVD指标较最优基线提升37%,且无需依赖3D人体模型(如SMPL)。
- 跨领域意义:为扩散模型(Diffusion Models)的细粒度控制提供了新范式。


其他价值
- 论文附带的代码与预训练模型已在GitHub开源,支持动画式(Animation-based)与修复式(Inpainting-based)两种推理模式。
- 实验部分包含与3D网格(SMPL)、密集姿态(DensePose)的对比,证实深度图的普适性优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com