分享自:

统一3D增强相机与人体运动控制的视频生成框架

期刊:ACM Trans. Graph.DOI:https://doi.org/10.1145/nnnnnnn.nnnnnnn

学术报告:Uni3C——视频生成中精确3D增强相机与人体运动控制的统一框架

作者与发表信息

本研究的核心作者团队来自阿里巴巴达摩院、复旦大学和湖畔实验室,包括Chenjie Cao、Jingkai Zhou、Shikai Li等8位研究人员。该研究以”uni3c: unifying precisely 3d-enhanced camera and human motion controls for video generation”为题,将于2025年9月发表在ACM Transactions on Graphics期刊上。

学术背景

本研究属于计算机视觉与视频生成领域,针对当前视频扩散模型(VDMs)在相机控制和人体运动控制方面的局限性展开。现有方法通常将相机轨迹控制与人体动画控制分开处理,这导致两个关键问题:一是需要高质量的双重标注数据,二是缺乏统一的3D引导机制来协调场景几何与人物动作。研究团队旨在开发一个能同时精确控制相机运动和人体动作的3D增强型统一框架。

研究方法与流程

1. 整体框架设计

Uni3C系统建立在WAN2.1视频扩散模型基础上,包含两大创新组件: - PCDController:轻量级可插拔相机控制模块(0.95B参数) - 全局3D世界引导机制:将场景点云与SMPL-X人体模型对齐到统一坐标系

2. PCDController开发流程

(1) 3D几何先验提取: - 使用Depth-Pro从单视图图像提取单目深度 - 通过RANSAC算法将深度图转换为度量表示 - 利用公式Xpcd(x)≃R(c→w)D̂_im g(x)K^(-1)x将2D像素反投影为3D点云

(2) 模块架构设计: - 采用简化DiT架构,隐藏层尺寸从5120缩减至1024 - 仅在前20层注入相机控制特征 - 同时使用Plücker射线和点云渲染视频作为条件输入

(3) 训练策略: - 在64块H100 GPU上训练40小时 - 采用6000步训练,批量大小32 - 随机丢弃10%文本条件和5%点云渲染

3. 全局3D世界对齐

(1) 空间对齐: - 使用VIT-Pose++提取17个2D人体关键点 - 通过最小二乘估计(Umeyama方法)将SMPL-X从人体坐标系(W_hum)对齐到环境坐标系(W_env)

(2) 重力校准: - 采用GeoCalib估计环境重力方向 - 校正SMPL-X序列的重力方向偏差

(3) 多模态条件整合: - 将HAMER手部模型与SMPL-X身体模型统一对齐 - 基于渲染深度处理手部遮挡问题

主要研究成果

1. 相机控制性能

在包含128个样本的跨域测试集上: - 绝对平移误差(ATE):0.102 - 相对平移误差(RPE):0.031 - 相对旋转误差(RRE):0.246 相比仅使用Plücker射线的方法,点云条件使相机控制精度提升300%

2. 统一控制效果

在150个人体视频测试集上: - 视觉质量评分(VBench++):83.43 - 相机控制指标与人体姿态质量均优于Camanimate等基线方法 - 支持720p视频生成(训练仅使用480p数据)

3. 关键发现

(1) 点云条件使训练收敛速度显著快于Plücker射线(1000次迭代即可获得基本控制能力) (2) 重力校准有效解决了长距离运动中的人体姿态漂移问题 (3) 20层DiT分支在控制精度与泛化能力间达到最佳平衡

研究结论与价值

Uni3C框架的创新性体现在三个层面: 1. 方法学价值:证明了通过轻量级可训练模块配合丰富3D先验,可不破坏大模型固有能力实现精确控制 2. 技术价值:首次实现了场景几何与人体动作在统一3D空间中的协调控制 3. 应用价值:为影视制作、虚拟现实等领域提供了高质量的动态内容生成工具

研究亮点

  1. PCDController的创新设计:仅0.95B参数的轻量模块实现对大模型(14B)的精确控制
  2. 训练策略突破:各模块可独立训练,降低对联合标注数据的依赖
  3. 评估体系创新:构建了包含挑战性相机运动和人机交互场景的新基准测试集

其他重要发现

  • 系统支持从文本到动作的引导生成(如图12展示的Babel数据集动作组合)
  • 在运动迁移任务中表现出色,可实现跨域(动画↔真实场景)动作转移
  • 开源代码已发布在https://github.com/alibaba-damo-academy/uni3c

研究的主要局限在于无法处理人体运动与环境物体的物理冲突情况,这为未来研究指明了改进方向。团队认为,结合环境感知的人体运动生成方法将进一步提升系统的实用性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com