分享自:

基于置信度感知姿态引导的高质量人体运动视频生成

期刊:Proceedings of the 42nd International Conference on Machine Learning

学术研究报告:MimicMotion——基于置信度感知姿态引导的高质量人体运动视频生成框架

1. 研究团队与发表信息
本研究由Yuang Zhang(1,2)、Jiaxi Gu(1)、Li-Wen Wang(1)、Han Wang(1,2)、Junqi Cheng(1)、Yuefeng Zhu(1)、Fangyuan Zou(1)合作完成,作者单位包括腾讯(Tencent)和上海交通大学(Shanghai Jiao Tong University)。论文发表于2025年第42届国际机器学习会议(Proceedings of the 42nd International Conference on Machine Learning, PMLR 267),通讯作者为Jiaxi Gu。

2. 学术背景与研究目标
科学领域:本研究属于生成式人工智能(Generative AI)中的视频生成领域,聚焦于姿态引导的人体运动视频生成(pose-guided human motion video generation)。
研究动机:尽管图像生成技术已取得显著进展,视频生成仍面临三大挑战:
1. 可控性(controllability):现有方法难以精准控制生成内容(如人体动作);
2. 视频长度(length):受计算资源限制,生成长视频时易出现时序不连贯;
3. 细节质量(detail quality):手部等关键区域易出现扭曲(distortion)。
研究目标:提出MimicMotion框架,通过置信度感知姿态引导(confidence-aware pose guidance)和渐进潜在融合(progressive latent fusion),生成高质量、任意长度的人体运动视频。

3. 研究方法与流程
3.1 数据准备
- 数据集:收集4,436段平均时长20.1秒的舞蹈视频,从中提取参考图像(reference image)、视频帧序列及对应姿态序列。
- 姿态提取:使用DWpose(Yang et al., 2023)从每帧提取人体关键点,并附加置信度分数(confidence score)。

3.2 模型架构
基于预训练的Stable Video Diffusion(SVD)模型(Blattmann et al., 2023),设计以下核心模块:
- VAE编码器/解码器:将图像编码至潜空间(latent space)以降低计算成本。
- PoseNet:由多层卷积组成,独立处理姿态序列(避免与VAE图像特征混淆)。
- 时空U-Net:融合参考图像特征(通过CLIP提取)与姿态特征,生成视频帧。

3.3 创新方法
- 置信度感知姿态引导
- 问题:DWpose在动态视频中易产生错误关键点(如手部自遮挡导致的误检测)。
- 解决方案:将关键点置信度分数映射为姿态图的亮度,高置信度区域在训练中权重更高。
- 手部区域增强:对手部关键点设置置信度阈值,构建掩膜(mask)并放大其损失权重(loss weight=10),减少扭曲。
- 渐进潜在融合(Progressive Latent Fusion):
- 问题:直接拼接视频片段会导致边界闪烁(flickering)。
- 解决方案:将长视频分割为重叠片段(如16帧/段,重叠6帧),在潜空间按时间位置加权融合相邻片段,权重公式为λ_fusion=1/(c+1)(c为重叠帧数)。

3.4 训练与实验
- 训练配置:8块NVIDIA A100 GPU,批量大小8,学习率10^-5(500次线性预热),训练20轮。
- 对比方法:包括MagicAnimate(Xu et al., 2024)、Moore-AnimateAnyone(Moo, 2024)等。
- 评估指标:FID-Vid(视频质量)、FVD(时序连贯性)、SSIM/PSNR(帧间相似性)。

4. 主要结果
4.1 定量结果
MimicMotion在TikTok测试集上全面超越基线方法:
- FID-Vid:9.3(基线最优12.4);
- FVD:594(基线最优728);
- SSIM:0.795(基线最优0.776)。

4.2 定性结果
- 手部质量:置信度引导使手部关键点更精准,生成手部细节更清晰(图4);
- 时序平滑性:渐进融合有效消除片段边界闪烁,Y-T切片显示平滑过渡(图9);
- 跨域泛化性:在卡通和动物视频中零样本生成合理动作(图11-12)。

5. 结论与价值
科学价值
1. 提出首个融合姿态置信度的视频生成框架,解决噪声姿态导致的训练不稳定问题;
2. 渐进潜在融合为长视频生成提供可扩展方案。
应用价值:适用于数字人(digital human)、娱乐内容创作等场景。
伦理声明:作者强调需通过水印(watermarking)等技术防止生成内容滥用。

6. 研究亮点
- 置信度感知设计:将姿态估计不确定性引入生成过程,提升鲁棒性;
- 手部区域增强:针对性解决扩散模型的手部扭曲难题;
- 训练效率:基于预训练SVD微调,仅需小规模数据(无需人工标注)。

7. 其他发现
用户研究表明,96.3%参与者认为MimicMotion生成视频质量优于MagicPose(图6),凸显其用户偏好优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com