分享自:

CyberHost:一种用于音频驱动说话人生成的一阶段扩散框架

期刊:ICLR 2025

基于扩散模型的音频驱动全身人像动画生成框架CyberHost的学术报告

一、作者与发表信息
本研究的核心作者包括Gaojie Lin(字节跳动)、Jianwen Jiang(字节跳动)、Chao Liang(字节跳动)、Tianyun Zhong(浙江大学,实习期间于字节跳动完成工作)等,团队主要来自字节跳动与浙江大学。该研究以《CyberHost: A One-Stage Diffusion Framework for Audio-Driven Talking Body Generation》为题,发表于ICLR 2025会议(国际学习表征会议),并已在arXiv预印本平台公开(arXiv:2409.01876v3)。

二、学术背景
研究领域与动机
本研究属于计算机视觉与生成式人工智能交叉领域,聚焦于音频驱动的人体动画生成(Audio-Driven Talking Body Generation)。尽管基于扩散模型(Diffusion Model)的肖像动画(如说话头部生成)已取得显著进展,但全身人像动画仍面临两大挑战:
1. 局部细节欠拟合(Details Underfitting):音频信号难以直接捕捉手部、面部等关键区域的结构细节;
2. 运动不确定性(Motion Uncertainty):肢体运动与音频的弱相关性导致生成动作不稳定。

现有方法多依赖两阶段框架(如先音频转姿态、再姿态转视频),但中间表示(如姿态或网格)信息有限且易引入误差。因此,本研究提出首个单阶段扩散框架CyberHost,旨在直接通过音频驱动生成高质量全身动画,同时解决局部细节完整性与运动稳定性问题。

三、研究方法与流程
1. 整体架构设计
CyberHost基于潜在扩散模型(Latent Diffusion Model, LDM),通过变分自编码器(VAE)将图像压缩至潜空间以减少计算量。核心创新包括:
- 区域注意力模块(Region Attention Module, RAM):增强手部、面部等关键区域的细节生成;
- 人体先验引导条件(Human-Prior-Guided Conditions):通过运动约束与结构先验降低不确定性。

2. 区域注意力模块(RAM)
RAM由两部分组成:
- 时空区域潜码库(Spatio-Temporal Region Latents Bank):学习身份无关的共享局部特征(如手部拓扑结构),包含空间潜码($l{spa}$)与时间潜码($l{temp}$),通过正交约束提升表征能力;
- 身份描述符(Identity Descriptor):从裁剪的局部图像(如手部、面部)提取身份相关纹理特征,通过ArcFace网络实现面部特征编码。

训练策略:采用局部重加权损失(Local Enhancement Loss)强化关键区域监督,并辅以手部关键点热图预测任务(辅助损失函数)。

3. 人体先验引导条件
- 身体运动图(Body Movement Map):约束人体根节点的运动范围,通过数据增强(矩形框扩大100%-150%)避免生成动作僵化;
- 手部清晰度评分(Hand Clarity Score):基于拉普拉斯标准差量化训练数据中手部模糊程度,作为条件输入以提升生成清晰度;
- 姿态对齐参考特征(Pose-Aligned Reference Feature):通过预训练姿态估计模型提取参考图像的骨骼图,增强初始姿态感知。

4. 两阶段训练流程
- 第一阶段:静态帧生成训练,优化参考网络(Reference Net)、姿态编码器等基础模块;
- 第二阶段:端到端视频生成训练,引入时间层与音频注意力层,支持动态分辨率(约640×384像素)。

四、实验结果与发现
1. 音频驱动全身动画(A2V-B)
- 定量指标:在SSIM(结构相似性)、FID(Fréchet Inception Distance)、FVD(Fréchet Video Distance)等指标上显著优于两阶段基线(如DiffGesture + MimicMotion组合)。例如,FID从58.95降至32.97,FVD从1515.9降至555.8。
- 定性对比:如图4所示,CyberHost在手部完整性(Hand Integrity)与身份一致性(Identity Consistency)上表现优异,避免了竞争方法中常见的细节退化问题。

2. 视频驱动人体重演(V2V-B)
通过替换身体运动图为骨骼序列,CyberHost在视频驱动任务中同样领先,如AnimateAnyone的FID从26.87降至20.04,AKD(平均关键点距离)从5.747降至3.123,证明其泛化能力。

3. 消融实验验证
- RAM模块:移除时空潜码库导致手部运动多样性(HKV)下降19.4%;移除身份描述符使面部一致性(CSIM)降低17.9%;
- 先验条件:取消身体运动图会引发全局运动不稳定(FVD上升20.3%),而手部清晰度评分缺失直接导致手部质量(HKC)下降4.2%。

五、研究结论与价值
科学价值
1. 提出首个单阶段音频驱动全身动画框架,避免了中间表示的局限性;
2. 通过RAM模块与先验条件,系统性解决了局部细节与运动不确定性的核心挑战。

应用价值
- 零样本生成(Zero-Shot Generation):支持开放域图像(如动漫角色)的动画生成(图6b);
- 多模态扩展:兼容视频驱动与音视频混合驱动(图6a),适用于虚拟主播、教育交互等场景。

六、研究亮点
1. 创新架构:RAM模块首次将身份无关与身份相关特征解耦,结合时空潜码库实现细粒度局部控制;
2. 工程优化:动态分辨率训练与双分类器无关引导(Dual CFG)策略提升推理效率(RTF≈65 on A100 GPU);
3. 开源与可复现性:代码与视频样本已公开(https://cyberhost.github.io/),数据流程符合伦理规范(如MD5去标识化处理)。

七、局限与未来方向
当前模型在极端比例卡通形象(图14)或复杂背景下仍存在生成瑕疵。未来计划:
1. 收集更多样化数据(如全身场景);
2. 设计更强的人体结构先验编码模块;
3. 升级音频特征提取器(如替换Wav2Vec)以提升鲁棒性。

本研究为音频驱动人体动画提供了新的方法论框架,其技术路线或可拓展至其他生成任务(如手势合成),推动多模态交互技术的进一步发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com