本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
作者与机构:
Li Hu(阿里巴巴集团智能计算研究院)
发表信息:CVPR(计算机视觉与模式识别顶会)开放访问版本,由计算机视觉基金会提供。
研究领域:计算机视觉与生成式人工智能,聚焦于角色动画生成(character animation),即通过静态图像和姿态序列生成连贯视频。
研究动机:
1. 现有问题:传统方法(如GANs)生成的视频存在局部扭曲、细节模糊、语义不一致和时序抖动等问题;扩散模型虽在图像生成中表现优异,但在角色动画中难以保持细节一致性(如服装纹理、肢体动作)。
2. 技术瓶颈:
- 参考图像的低分辨率输入导致细节丢失(如CLIP图像编码器仅支持224×224输入);
- 现有方法(如ControlNet)依赖空间对齐的控制信号,不适用于非对齐的参考图像与目标姿态。
研究目标:提出Animate Anyone框架,实现高保真、时序稳定且泛化性强的角色动画生成。
核心框架(图2):
1. 参考图像特征提取(ReferenceNet):
- 结构:对称U-Net,继承Stable Diffusion(SD)预训练权重,通过空间注意力(spatial-attention)融合参考图像细节特征。
- 创新点:
- 与去噪U-Net共享特征空间,避免语义偏差;
- 高分辨率输入(768×768)保留细节,优于CLIP编码器。
2. 姿态控制(Pose Guider):
- 轻量级4层卷积网络,将姿态骨架图对齐至噪声潜在空间,通过零卷积初始化提升训练稳定性。
3. 时序建模(Temporal Layer):
- 在去噪U-Net中插入时序注意力层(temporal-attention),基于AnimateDiff预训练权重,实现帧间平滑过渡。
训练策略:
- 两阶段训练:
1. 单帧训练:固定VAE和CLIP编码器,训练ReferenceNet与Pose Guider,优化细节与姿态一致性;
2. 视频微调:引入时序层,仅训练该模块以保持时序连续性,输入24帧视频片段(batch size=4)。
数据集:
- 内部数据集:5K角色视频片段(含身体与手部姿态,通过DWOpenpose提取);
- 基准测试集:UBC Fashion、TikTok、TED-Talk数据集(仅用对应数据训练以公平对比)。
此报告基于原文内容,完整呈现了研究的创新性、方法严谨性与应用潜力,可作为相关领域学者的参考。