这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:
HumanVid:揭秘可控人体图像动画训练数据集的构建与应用
作者及机构
本研究由香港中文大学的Zhenzhi Wang、Yixuan Li等人联合上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)和香港大学(The University of Hong Kong)的团队共同完成,发表于第38届神经信息处理系统会议(NeurIPS 2024)的数据集与基准赛道。
研究领域与动机
人体图像动画(Human Image Animation)是计算机视觉与图形学交叉领域的热点任务,旨在通过单张人物照片生成可控的视频序列,应用于影视制作、虚拟角色驱动等场景。然而,现有技术面临两大瓶颈:
1. 数据缺失:高质量训练数据集多为私有,公开数据集(如TikTok、UBC-Fashion)在规模、分辨率或标注完整性上存在局限,阻碍了公平的算法比较与社区发展。
2. 控制不足:现有方法仅关注2D人体姿态(Pose)驱动,忽略了视频中摄像机运动(Camera Motion)的重要性,导致生成视角单一、稳定性差。
研究目标
团队提出首个大规模高质量数据集HumanVid,包含真实世界视频与合成数据,并设计基线模型Camanimate(Camera-controllable Human Animation),实现人体姿态与摄像机轨迹的双重控制。
(1)真实世界视频处理
- 数据来源:从Pexels等无版权平台爬取20,000段1080p分辨率的人体中心视频。
- 过滤规则:通过2D姿态估计器(如DWPose)和SLAM(Simultaneous Localization and Mapping)技术筛选高质量片段,剔除含特效、遮挡或多人干扰的视频。
- 标注生成:使用基于SLAM的Tram方法估计摄像机轨迹,结合姿态序列标注,确保运动仅由人体或摄像机引起。
(2)合成数据生成
- 角色创建:
- 真实人体模型:基于SMPL-X参数化模型,整合271种体型、100种肤色纹理(覆盖7种族裔)及1,691种服装纹理,通过物理模拟(如CLO3D)实现衣物自然变形。
- 动漫角色:从VRoidHub收集10,000个用户生成的3D角色资产,增强多样性。
- 动作重定向:利用Motion Capture数据(如AMASS)和开源工具(Rokoko)将动作迁移至不同角色骨架。
- 场景与摄像机设计:
- 3D场景:采用100组HDRI全景图与3D场景库,避免单一背景干扰。
- 摄像机轨迹:提出基于规则的轨迹生成算法,在半圆柱空间内随机采样关键帧位置,通过样条插值生成平滑轨迹,模拟专业影视运镜(如跟踪镜头、环绕拍摄)。
(3)数据统计
HumanVid总规模远超现有数据集(如Bedlam、TikTok),包含20,000段真实视频(10M帧)和75,000段合成视频(10M帧),均标注人体姿态与6自由度(6-DoF)摄像机参数(表1)。
用户研究:20名参与者对生成视频的排名显示,Camanimate在角色外观自然度、背景运动平滑性等维度获得73%的Top-1偏好率(表5)。
科学意义
- 填补数据空白:HumanVid是首个公开的大规模人体动画数据集,提供精确的摄像机与姿态标注,推动领域标准化评估。
- 方法创新:提出的规则化摄像机轨迹生成算法与两阶段训练框架,为多条件视频生成提供新范式。
应用价值
- 影视工业:支持从单张剧照生成多视角动态镜头,降低拍摄成本。
- 技术延伸:数据集标注(如深度图、法线图)可辅助3D重建、动作捕捉等下游任务。
局限性
- 真实视频的摄像机标注依赖SLAM,可能引入噪声;
- 合成数据的场景多样性仍逊于专业影视素材。
其他贡献
- 开源数据集与代码(https://humanvid.github.io/),促进社区发展;
- 提出基于合成数据的摄像机控制评估基准,为后续研究提供参考。
此研究为人体动画领域提供了数据与方法论的双重突破,其公开性与可复现性有望加速相关技术的工业化落地。