分享自:

统一动画:驯服统一视频扩散模型以实现一致的人类图像动画

期刊:Science China Information Sciences

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


UniAnimate:统一视频扩散模型在一致性人体图像动画中的应用

作者及机构
该研究由Xiang Wang(华中科技大学)、Shiwei Zhang(阿里巴巴集团)、Changxin Gao(华中科技大学)、Jiayu Wang(阿里巴巴集团)、Xiaoqiang Zhou(中国科学技术大学)、Yingya Zhang(阿里巴巴集团)、Luxin Yan(华中科技大学)和Nong Sang(华中科技大学)共同完成,发表于预印本平台arXiv(编号:2406.01188v1),并计划在《Science China Information Sciences》期刊正式发表。

学术背景
研究领域为生成式人工智能,具体聚焦于人体图像动画(Human Image Animation)任务。当前基于扩散模型(Diffusion Model)的视频生成技术虽能合成高质量短时视频(如24帧),但存在两大瓶颈:
1. 模型复杂度高:现有方法需额外引入参考模型(Reference Network)对齐身份特征,导致参数量激增和优化困难;
2. 长时生成能力不足:受限于时序建模模块(如Transformer)的二次计算复杂度,难以生成分钟级连贯视频。

研究目标是通过提出UniAnimate框架,实现高效、长时、高保真的人体动作视频生成,突破现有技术在计算效率和时序一致性上的限制。

研究流程与方法
1. 统一视频扩散模型(Unified Video Diffusion Model)
- 架构设计:将参考图像、姿态引导和噪声视频映射至共享特征空间,采用单一3D-UNet(三维U型网络)同时处理外观对齐与运动建模,替代传统分离式参考网络+主分支的双网络结构。
- 创新点:显式引入参考姿态编码(Reference Pose Encoding),通过轻量级姿态提取器(DWpose)捕获人体骨骼布局信息,与参考图像特征融合,提升空间结构理解能力。

  1. 统一噪声输入(Unified Noised Input)

    • 策略设计:支持两种输入模式——随机噪声视频或首帧条件视频(First Frame Conditioned Input)。后者通过迭代生成策略(以前片段的末帧作为下一片段首帧)实现长视频无缝衔接。
    • 对比实验:相比滑动窗口平均法(Slide Window),该策略在TikTok数据集上FVD(Fréchet Video Distance)指标降低12.7%,显著减少片段间跳变。
  2. 时序建模优化(Temporal Mamba)

    • 算法替换:提出用时序Mamba(基于状态空间模型SSM)替代传统时序Transformer,其线性计算复杂度(O(n) vs. Transformer的O(n²))支持更长序列处理。
    • 性能验证:在256帧生成任务中,内存占用降低15.2%(73.6GB→62.4GB),且SSIM(结构相似性)保持0.811不变。

实验与结果
1. 数据集
- 训练集:TikTok(340视频)、Fashion(500视频)及10K内部数据;
- 测试集:TikTok(10视频)、Fashion(100视频)。

  1. 定量结果

    • TikTok数据集:UniAnimate的FVD(148.06)优于Animate Anyone(171.90)和MagicAnimate(179.07),PSNR(30.77 dB)提升4.2%。
    • 长时生成:通过首帧条件迭代,成功合成1分钟视频(360帧),LPIPS(感知相似性)仅0.231。
  2. 定性分析

    • 对比MagicAnimate的肢体错位和Animate Anyone的伪影问题,UniAnimate在跨域(如卡通角色)动画中展现更强一致性(图1)。

结论与价值
1. 科学价值
- 提出首个统一特征空间建模框架,解决扩散模型中外观-运动解耦的优化难题;
- 验证了Mamba在视频生成中替代Transformer的可行性,为长序列建模提供新范式。

  1. 应用价值

研究亮点
1. 方法创新
- 统一噪声输入策略首次实现无需重叠拼接的长视频生成;
- 时序Mamba的引入为视频生成领域提供首个SSM(State Space Model)应用案例。

  1. 性能突破
    • 在相同硬件下支持4倍于传统方法的生成长度(24帧→360帧);
    • 跨域迁移能力突出,未训练卡通数据仍可生成高质量动画。

局限与展望
当前版本在面部细节和长时遮挡处理上仍有提升空间,未来计划通过高清数据集采集和跨片段交互策略进一步优化。该框架可扩展至多角色动画、3D人体重建等方向。


(注:实际报告中部分数据需对照原文表格补充完整,此处为示例性缩略。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com