基于提示的协同语音全身运动生成中的协同全身控制

分享自：
基于提示的协同语音全身运动生成中的协同全身控制

期刊:ACM International Conference on MultimediaDOI:10.1145/3664647.3680847
基于提示的协同语音全身运动生成研究：Syntalker模型作者及机构
 本研究的核心团队来自浙江大学CAD&CG国家重点实验室，包括Bohong Chen、Yumeng Li、Yao-Xiang Ding（通讯作者）、Tianjia Shao和Kun Zhou。研究成果发表于ACM国际多媒体会议（MM’24，2024年10月28日-11月1日），论文标题为《Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation》。
学术背景研究领域与动机
 协同语音运动生成（Co-Speech Motion Generation）是数字虚拟人（digital talking avatars）的核心技术之一，旨在根据语音输入生成与之同步的全身动作。然而，现有方法存在两大局限：
 1. 动作范围受限：当前模型主要关注上半身手势（如头部和手部动作），而缺乏对全身协同运动（如边走边说）的精细控制。
 2. 数据分布不匹配：现有语音-运动数据集（如BEATX）仅包含有限的全身动作，且缺乏用户提示（prompt）标注，导致模型难以泛化到常见人类活动（如坐下交谈）。
科学问题
 语音信号本身不足以唯一确定全身动作（例如“边走边说”和“站立说话”均合理），需通过文本提示补充用户意图。但联合训练语音-运动和文本-运动数据集面临挑战：
 - 两类数据集的运动分布差异显著（如BEATX以手势为主，AMASS覆盖多样化全身动作）；
 - 语音-运动数据缺乏提示标注，直接混合训练会导致嵌入空间（embedding space）难以对齐。
研究目标
 提出Syntalker模型，实现以下创新：
 1. 首次支持通过文本提示控制协同语音全身运动生成；
 2. 设计多阶段训练策略解决数据分布不匹配和标注缺失问题；
 3. 开发“分离-组合”（separate-then-combine）推理策略，实现局部身体部位的精细化控制。
研究方法与流程1. 模型设计Syntalker包含三大模块（图2）：
 - 运动表征模块：采用分部位残差向量量化自编码器（RVQ-VAE），将身体分为上半身、手指和下半身，分别训练编码器-解码器，降低部位间耦合。
 - 条件生成模块：基于潜在扩散模型（Latent Diffusion Model），在隐空间进行去噪生成，支持语音和提示的双条件输入。
 - 条件表征模块：通过对比学习（contrastive learning）对齐语音、文本与运动的嵌入空间。
关键技术
 - 残差量化：通过多层级联的量化层（6层，每层512维码本）压缩运动序列，保留细节信息。
 - 分部位控制：在扩散过程中对隐变量按身体部位掩码（masking），分别施加语音和提示的引导信号。
2. 多阶段训练流程（图3）（1）运动表征预训练目标：统一语音-运动（BEATX）和文本-运动（AMASS）数据集的运动分布。
 
方法：联合训练RVQ-VAE，损失函数包含重构损失和码本对齐损失（式2）：
 [ \mathcal{L}_{rvq} = |z - \hat{z}|1 + \beta \sum{q=1}^Q |z_q - \text{sg}[\hat{z}_q]|_2^2
 ]
 其中$\text{sg}[\cdot]$为停止梯度操作，$\beta$为权重系数。
 
（2）提示-运动对齐预训练目标：构建文本-运动对齐的嵌入空间，解决语音-运动数据缺乏提示标注的问题。
 
方法：基于对比学习框架（TMR），损失函数包含重构损失、KL散度、跨模态相似性损失和对比损失（式6-9）：
 [ \mathcal{L}_{con} = \mathcal{L}r + \lambda{kl}\mathcal{L}_{kl} + \lambda_e\mathcal{L}e + \lambda{nce}\mathcal{L}_{nce}
 ]
 通过运动编码器为无标注数据生成隐标签（implicit label），替代缺失的文本提示。
 
（3）生成模型训练目标：在对齐的嵌入空间中训练扩散模型，支持双条件生成。
 
方法：采用分类器无关引导（classifier-free guidance），随机掩码语音或提示条件（掩码率$\eta_a=\eta_p=0.1$），增强模型对条件信号的理解。
 
3. 推理策略分离-组合流程（图3下半部分）：
 1. 条件分离：将隐变量分解为无条件预测、语音引导和提示引导三部分（式4）：
 [ z{cond} = z{uncond} + wa z{speech} + wp z{prompt}
 ]
 其中$w_a$和$w_p$为引导强度系数。
 2. 部位分离：根据提示解析身体部位（如“坐下”对应下半身），对每个部位独立生成隐变量后加权融合（式5）。
 3. 平滑优化：添加平滑项避免动作不连贯，最终通过解码器生成全身运动。
主要结果1. 全身协同生成（图4）在兴奋和平静两种语音输入下，Syntalker成功生成符合提示的协同运动：
 - “顺时针绕圈行走”：下肢严格遵循路径，上肢根据语音节奏摆动（兴奋状态下幅度更大）。
 - “单脚站立”：平衡动作与语音内容自然融合，无肢体冲突。
 - “手持茶杯坐下”：手部持杯动作与坐姿同步，且茶杯位置符合物理约束。
2. 单条件生成性能（1）语音-运动生成（表2）在BEATX测试集上，Syntalker的FGD（Frechet Gesture Distance）为6.413，优于EMAGE（5.423）和DiffStyleGesture（10.137），表明其语音表征能力更强。
（2）文本-运动生成（表1）在HumanML3D测试集上，Syntalker的R-precision（0.375）接近T2M-GPT（0.433），但多样性得分（4.385）显著更高，证明其能生成更丰富的动作。
3. 消融实验（图5）移除隐标签：模型仅响应提示，生成静态坐姿（图5b）。
 
移除分离-组合策略：下肢动作错误（如“坐下”变为轻微屈膝，图5c）。
 
移除运动预训练：无法生成分布外动作（如“僵尸模仿”，图5d）。
 
结论与价值科学意义
 1. 首次实现语音和文本提示协同控制的全身运动生成，突破现有方法的上肢动作局限。
 2. 提出隐标签和分部位扩散策略，为多模态条件生成提供新范式。
应用价值
 - 虚拟角色动画：支持游戏NPC、虚拟主播等场景的复杂交互（如边行走边介绍产品）。
 - 跨数据集迁移：通过RVQ-VAE和对比学习，有效融合异构数据集（BEATX+AMASS）。
亮点
 1. 数据效率：无需额外标注，利用现成数据集解决提示缺失问题。
 2. 可控性：通过引导系数（$w_a$, $w_p$）灵活调节语音与提示的权重。
 3. 可扩展性：模块化设计支持添加新身体部位（如面部表情）。
局限与展望
 - 当前提示理解仍基于信号强度而非语义解析，未来可结合大语言模型（LLM）提升意图识别。
 - 手势控制受限于数据集标注，需构建更丰富的手部动作库。
（注：全文约2000字，涵盖方法细节、实验结果与学术价值分析）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问