人类图像动画数据集HumanVid的构建与应用

分享自：
人类图像动画数据集HumanVid的构建与应用

期刊:38th Conference on Neural Information Processing Systems (NeurIPS 2024)
这篇文档属于类型a，即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告：
HumanVid：揭秘可控人体图像动画训练数据集的构建与应用
作者及机构
 本研究由香港中文大学的Zhenzhi Wang、Yixuan Li等人联合上海人工智能实验室（Shanghai Artificial Intelligence Laboratory）和香港大学（The University of Hong Kong）的团队共同完成，发表于第38届神经信息处理系统会议（NeurIPS 2024）的数据集与基准赛道。
学术背景研究领域与动机
 人体图像动画（Human Image Animation）是计算机视觉与图形学交叉领域的热点任务，旨在通过单张人物照片生成可控的视频序列，应用于影视制作、虚拟角色驱动等场景。然而，现有技术面临两大瓶颈：
 1. 数据缺失：高质量训练数据集多为私有，公开数据集（如TikTok、UBC-Fashion）在规模、分辨率或标注完整性上存在局限，阻碍了公平的算法比较与社区发展。
 2. 控制不足：现有方法仅关注2D人体姿态（Pose）驱动，忽略了视频中摄像机运动（Camera Motion）的重要性，导致生成视角单一、稳定性差。
研究目标
 团队提出首个大规模高质量数据集HumanVid，包含真实世界视频与合成数据，并设计基线模型Camanimate（Camera-controllable Human Animation），实现人体姿态与摄像机轨迹的双重控制。
研究流程与方法1. 数据集构建（1）真实世界视频处理
 - 数据来源：从Pexels等无版权平台爬取20,000段1080p分辨率的人体中心视频。
 - 过滤规则：通过2D姿态估计器（如DWPose）和SLAM（Simultaneous Localization and Mapping）技术筛选高质量片段，剔除含特效、遮挡或多人干扰的视频。
 - 标注生成：使用基于SLAM的Tram方法估计摄像机轨迹，结合姿态序列标注，确保运动仅由人体或摄像机引起。
（2）合成数据生成
 - 角色创建：
 - 真实人体模型：基于SMPL-X参数化模型，整合271种体型、100种肤色纹理（覆盖7种族裔）及1,691种服装纹理，通过物理模拟（如CLO3D）实现衣物自然变形。
 - 动漫角色：从VRoidHub收集10,000个用户生成的3D角色资产，增强多样性。
 - 动作重定向：利用Motion Capture数据（如AMASS）和开源工具（Rokoko）将动作迁移至不同角色骨架。
 - 场景与摄像机设计：
 - 3D场景：采用100组HDRI全景图与3D场景库，避免单一背景干扰。
 - 摄像机轨迹：提出基于规则的轨迹生成算法，在半圆柱空间内随机采样关键帧位置，通过样条插值生成平滑轨迹，模拟专业影视运镜（如跟踪镜头、环绕拍摄）。
（3）数据统计
 HumanVid总规模远超现有数据集（如Bedlam、TikTok），包含20,000段真实视频（10M帧）和75,000段合成视频（10M帧），均标注人体姿态与6自由度（6-DoF）摄像机参数（表1）。
2. 基线模型Camanimate架构设计：融合Animate Anyone的姿态控制与CameraCtrl的摄像机嵌入技术，采用Plücker坐标表征摄像机位姿，通过零卷积（Zero-convolution）将条件注入U-Net（图4）。
 
训练策略：
 两阶段训练：第一阶段联合优化外观、姿态与摄像机编码器；第二阶段冻结外观模块，专注时序运动与摄像机控制。
 
多分辨率支持：支持横版（896×512）与竖版（512×896）视频生成，适应不同应用场景。
 
主要结果1. 数据集验证静态摄像机任务：在TikTok和UBC-Fashion测试集上，Camanimate的SSIM（0.929）、PSNR（25.921）等指标均超越SOTA（如Animate Anyone、MagicAnimate）（表3）。
 
动态摄像机任务：在自建测试集上，模型生成视频的FVD（732.7）与FID（46.06）显著优于基线，证明摄像机控制的优越性（表4）。
 
用户研究：20名参与者对生成视频的排名显示，Camanimate在角色外观自然度、背景运动平滑性等维度获得73%的Top-1偏好率（表5）。
2. 消融实验数据组合必要性：仅使用合成数据训练会导致纹理失真；仅用真实数据则摄像机控制精度不足。两阶段混合训练策略使性能提升30%（表7）。
 
摄像机轨迹分析：合成数据的摄像机运动幅度（平移/旋转）显著大于真实数据，为模型学习复杂运镜提供基础（图9）。
 
结论与价值科学意义
 - 填补数据空白：HumanVid是首个公开的大规模人体动画数据集，提供精确的摄像机与姿态标注，推动领域标准化评估。
 - 方法创新：提出的规则化摄像机轨迹生成算法与两阶段训练框架，为多条件视频生成提供新范式。
应用价值
 - 影视工业：支持从单张剧照生成多视角动态镜头，降低拍摄成本。
 - 技术延伸：数据集标注（如深度图、法线图）可辅助3D重建、动作捕捉等下游任务。
局限性
 - 真实视频的摄像机标注依赖SLAM，可能引入噪声；
 - 合成数据的场景多样性仍逊于专业影视素材。
研究亮点数据规模与质量：HumanVid在分辨率、标注精度和运动多样性上均超越现有资源。
 
可控性突破：首次实现人体姿态与摄像机运动的联合驱动，扩展生成自由度。
 
技术通用性：Camanimate的模块化设计兼容静态与动态摄像机任务，适配实际需求。
 
其他贡献
 - 开源数据集与代码（https://humanvid.github.io/），促进社区发展；
 - 提出基于合成数据的摄像机控制评估基准，为后续研究提供参考。
此研究为人体动画领域提供了数据与方法论的双重突破，其公开性与可复现性有望加速相关技术的工业化落地。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问