分享自:

人类图像动画数据集HumanVid的构建与应用

期刊:38th Conference on Neural Information Processing Systems (NeurIPS 2024)

这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:


HumanVid:揭秘可控人体图像动画训练数据集的构建与应用

作者及机构
本研究由香港中文大学的Zhenzhi Wang、Yixuan Li等人联合上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)和香港大学(The University of Hong Kong)的团队共同完成,发表于第38届神经信息处理系统会议(NeurIPS 2024)的数据集与基准赛道。


学术背景

研究领域与动机
人体图像动画(Human Image Animation)是计算机视觉与图形学交叉领域的热点任务,旨在通过单张人物照片生成可控的视频序列,应用于影视制作、虚拟角色驱动等场景。然而,现有技术面临两大瓶颈:
1. 数据缺失:高质量训练数据集多为私有,公开数据集(如TikTok、UBC-Fashion)在规模、分辨率或标注完整性上存在局限,阻碍了公平的算法比较与社区发展。
2. 控制不足:现有方法仅关注2D人体姿态(Pose)驱动,忽略了视频中摄像机运动(Camera Motion)的重要性,导致生成视角单一、稳定性差。

研究目标
团队提出首个大规模高质量数据集HumanVid,包含真实世界视频与合成数据,并设计基线模型Camanimate(Camera-controllable Human Animation),实现人体姿态与摄像机轨迹的双重控制。


研究流程与方法

1. 数据集构建

(1)真实世界视频处理
- 数据来源:从Pexels等无版权平台爬取20,000段1080p分辨率的人体中心视频。
- 过滤规则:通过2D姿态估计器(如DWPose)和SLAM(Simultaneous Localization and Mapping)技术筛选高质量片段,剔除含特效、遮挡或多人干扰的视频。
- 标注生成:使用基于SLAM的Tram方法估计摄像机轨迹,结合姿态序列标注,确保运动仅由人体或摄像机引起。

(2)合成数据生成
- 角色创建
- 真实人体模型:基于SMPL-X参数化模型,整合271种体型、100种肤色纹理(覆盖7种族裔)及1,691种服装纹理,通过物理模拟(如CLO3D)实现衣物自然变形。
- 动漫角色:从VRoidHub收集10,000个用户生成的3D角色资产,增强多样性。
- 动作重定向:利用Motion Capture数据(如AMASS)和开源工具(Rokoko)将动作迁移至不同角色骨架。
- 场景与摄像机设计
- 3D场景:采用100组HDRI全景图与3D场景库,避免单一背景干扰。
- 摄像机轨迹:提出基于规则的轨迹生成算法,在半圆柱空间内随机采样关键帧位置,通过样条插值生成平滑轨迹,模拟专业影视运镜(如跟踪镜头、环绕拍摄)。

(3)数据统计
HumanVid总规模远超现有数据集(如Bedlam、TikTok),包含20,000段真实视频(10M帧)和75,000段合成视频(10M帧),均标注人体姿态与6自由度(6-DoF)摄像机参数(表1)。

2. 基线模型Camanimate

  • 架构设计:融合Animate Anyone的姿态控制与CameraCtrl的摄像机嵌入技术,采用Plücker坐标表征摄像机位姿,通过零卷积(Zero-convolution)将条件注入U-Net(图4)。
  • 训练策略
    • 两阶段训练:第一阶段联合优化外观、姿态与摄像机编码器;第二阶段冻结外观模块,专注时序运动与摄像机控制。
    • 多分辨率支持:支持横版(896×512)与竖版(512×896)视频生成,适应不同应用场景。

主要结果

1. 数据集验证

  • 静态摄像机任务:在TikTok和UBC-Fashion测试集上,Camanimate的SSIM(0.929)、PSNR(25.921)等指标均超越SOTA(如Animate Anyone、MagicAnimate)(表3)。
  • 动态摄像机任务:在自建测试集上,模型生成视频的FVD(732.7)与FID(46.06)显著优于基线,证明摄像机控制的优越性(表4)。

用户研究:20名参与者对生成视频的排名显示,Camanimate在角色外观自然度、背景运动平滑性等维度获得73%的Top-1偏好率(表5)。

2. 消融实验

  • 数据组合必要性:仅使用合成数据训练会导致纹理失真;仅用真实数据则摄像机控制精度不足。两阶段混合训练策略使性能提升30%(表7)。
  • 摄像机轨迹分析:合成数据的摄像机运动幅度(平移/旋转)显著大于真实数据,为模型学习复杂运镜提供基础(图9)。

结论与价值

科学意义
- 填补数据空白:HumanVid是首个公开的大规模人体动画数据集,提供精确的摄像机与姿态标注,推动领域标准化评估。
- 方法创新:提出的规则化摄像机轨迹生成算法与两阶段训练框架,为多条件视频生成提供新范式。

应用价值
- 影视工业:支持从单张剧照生成多视角动态镜头,降低拍摄成本。
- 技术延伸:数据集标注(如深度图、法线图)可辅助3D重建、动作捕捉等下游任务。

局限性
- 真实视频的摄像机标注依赖SLAM,可能引入噪声;
- 合成数据的场景多样性仍逊于专业影视素材。


研究亮点

  1. 数据规模与质量:HumanVid在分辨率、标注精度和运动多样性上均超越现有资源。
  2. 可控性突破:首次实现人体姿态与摄像机运动的联合驱动,扩展生成自由度。
  3. 技术通用性:Camanimate的模块化设计兼容静态与动态摄像机任务,适配实际需求。

其他贡献
- 开源数据集与代码(https://humanvid.github.io/),促进社区发展;
- 提出基于合成数据的摄像机控制评估基准,为后续研究提供参考。


此研究为人体动画领域提供了数据与方法论的双重突破,其公开性与可复现性有望加速相关技术的工业化落地。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com