作者及机构
本研究的核心团队来自浙江大学CAD&CG国家重点实验室,包括Bohong Chen、Yumeng Li、Yao-Xiang Ding(通讯作者)、Tianjia Shao和Kun Zhou。研究成果发表于ACM国际多媒体会议(MM’24,2024年10月28日-11月1日),论文标题为《Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation》。
研究领域与动机
协同语音运动生成(Co-Speech Motion Generation)是数字虚拟人(digital talking avatars)的核心技术之一,旨在根据语音输入生成与之同步的全身动作。然而,现有方法存在两大局限:
1. 动作范围受限:当前模型主要关注上半身手势(如头部和手部动作),而缺乏对全身协同运动(如边走边说)的精细控制。
2. 数据分布不匹配:现有语音-运动数据集(如BEATX)仅包含有限的全身动作,且缺乏用户提示(prompt)标注,导致模型难以泛化到常见人类活动(如坐下交谈)。
科学问题
语音信号本身不足以唯一确定全身动作(例如“边走边说”和“站立说话”均合理),需通过文本提示补充用户意图。但联合训练语音-运动和文本-运动数据集面临挑战:
- 两类数据集的运动分布差异显著(如BEATX以手势为主,AMASS覆盖多样化全身动作);
- 语音-运动数据缺乏提示标注,直接混合训练会导致嵌入空间(embedding space)难以对齐。
研究目标
提出Syntalker模型,实现以下创新:
1. 首次支持通过文本提示控制协同语音全身运动生成;
2. 设计多阶段训练策略解决数据分布不匹配和标注缺失问题;
3. 开发“分离-组合”(separate-then-combine)推理策略,实现局部身体部位的精细化控制。
Syntalker包含三大模块(图2):
- 运动表征模块:采用分部位残差向量量化自编码器(RVQ-VAE),将身体分为上半身、手指和下半身,分别训练编码器-解码器,降低部位间耦合。
- 条件生成模块:基于潜在扩散模型(Latent Diffusion Model),在隐空间进行去噪生成,支持语音和提示的双条件输入。
- 条件表征模块:通过对比学习(contrastive learning)对齐语音、文本与运动的嵌入空间。
关键技术
- 残差量化:通过多层级联的量化层(6层,每层512维码本)压缩运动序列,保留细节信息。
- 分部位控制:在扩散过程中对隐变量按身体部位掩码(masking),分别施加语音和提示的引导信号。
分离-组合流程(图3下半部分):
1. 条件分离:将隐变量分解为无条件预测、语音引导和提示引导三部分(式4):
[ z{cond} = z{uncond} + wa z{speech} + wp z{prompt}
]
其中$w_a$和$w_p$为引导强度系数。
2. 部位分离:根据提示解析身体部位(如“坐下”对应下半身),对每个部位独立生成隐变量后加权融合(式5)。
3. 平滑优化:添加平滑项避免动作不连贯,最终通过解码器生成全身运动。
在兴奋和平静两种语音输入下,Syntalker成功生成符合提示的协同运动:
- “顺时针绕圈行走”:下肢严格遵循路径,上肢根据语音节奏摆动(兴奋状态下幅度更大)。
- “单脚站立”:平衡动作与语音内容自然融合,无肢体冲突。
- “手持茶杯坐下”:手部持杯动作与坐姿同步,且茶杯位置符合物理约束。
在BEATX测试集上,Syntalker的FGD(Frechet Gesture Distance)为6.413,优于EMAGE(5.423)和DiffStyleGesture(10.137),表明其语音表征能力更强。
在HumanML3D测试集上,Syntalker的R-precision(0.375)接近T2M-GPT(0.433),但多样性得分(4.385)显著更高,证明其能生成更丰富的动作。
科学意义
1. 首次实现语音和文本提示协同控制的全身运动生成,突破现有方法的上肢动作局限。
2. 提出隐标签和分部位扩散策略,为多模态条件生成提供新范式。
应用价值
- 虚拟角色动画:支持游戏NPC、虚拟主播等场景的复杂交互(如边行走边介绍产品)。
- 跨数据集迁移:通过RVQ-VAE和对比学习,有效融合异构数据集(BEATX+AMASS)。
亮点
1. 数据效率:无需额外标注,利用现成数据集解决提示缺失问题。
2. 可控性:通过引导系数($w_a$, $w_p$)灵活调节语音与提示的权重。
3. 可扩展性:模块化设计支持添加新身体部位(如面部表情)。
局限与展望
- 当前提示理解仍基于信号强度而非语义解析,未来可结合大语言模型(LLM)提升意图识别。
- 手势控制受限于数据集标注,需构建更丰富的手部动作库。
(注:全文约2000字,涵盖方法细节、实验结果与学术价值分析)