分享自:

基于提示的协同语音全身运动生成中的协同全身控制

期刊:ACM International Conference on MultimediaDOI:10.1145/3664647.3680847

基于提示的协同语音全身运动生成研究:Syntalker模型

作者及机构
本研究的核心团队来自浙江大学CAD&CG国家重点实验室,包括Bohong Chen、Yumeng Li、Yao-Xiang Ding(通讯作者)、Tianjia Shao和Kun Zhou。研究成果发表于ACM国际多媒体会议(MM’24,2024年10月28日-11月1日),论文标题为《Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation》。


学术背景

研究领域与动机
协同语音运动生成(Co-Speech Motion Generation)是数字虚拟人(digital talking avatars)的核心技术之一,旨在根据语音输入生成与之同步的全身动作。然而,现有方法存在两大局限:
1. 动作范围受限:当前模型主要关注上半身手势(如头部和手部动作),而缺乏对全身协同运动(如边走边说)的精细控制。
2. 数据分布不匹配:现有语音-运动数据集(如BEATX)仅包含有限的全身动作,且缺乏用户提示(prompt)标注,导致模型难以泛化到常见人类活动(如坐下交谈)。

科学问题
语音信号本身不足以唯一确定全身动作(例如“边走边说”和“站立说话”均合理),需通过文本提示补充用户意图。但联合训练语音-运动和文本-运动数据集面临挑战:
- 两类数据集的运动分布差异显著(如BEATX以手势为主,AMASS覆盖多样化全身动作);
- 语音-运动数据缺乏提示标注,直接混合训练会导致嵌入空间(embedding space)难以对齐。

研究目标
提出Syntalker模型,实现以下创新:
1. 首次支持通过文本提示控制协同语音全身运动生成;
2. 设计多阶段训练策略解决数据分布不匹配和标注缺失问题;
3. 开发“分离-组合”(separate-then-combine)推理策略,实现局部身体部位的精细化控制。


研究方法与流程

1. 模型设计

Syntalker包含三大模块(图2):
- 运动表征模块:采用分部位残差向量量化自编码器(RVQ-VAE),将身体分为上半身、手指和下半身,分别训练编码器-解码器,降低部位间耦合。
- 条件生成模块:基于潜在扩散模型(Latent Diffusion Model),在隐空间进行去噪生成,支持语音和提示的双条件输入。
- 条件表征模块:通过对比学习(contrastive learning)对齐语音、文本与运动的嵌入空间。

关键技术
- 残差量化:通过多层级联的量化层(6层,每层512维码本)压缩运动序列,保留细节信息。
- 分部位控制:在扩散过程中对隐变量按身体部位掩码(masking),分别施加语音和提示的引导信号。

2. 多阶段训练流程(图3)

(1)运动表征预训练

  • 目标:统一语音-运动(BEATX)和文本-运动(AMASS)数据集的运动分布。
  • 方法:联合训练RVQ-VAE,损失函数包含重构损失和码本对齐损失(式2):
    [ \mathcal{L}_{rvq} = |z - \hat{z}|1 + \beta \sum{q=1}^Q |z_q - \text{sg}[\hat{z}_q]|_2^2
    ]
    其中$\text{sg}[\cdot]$为停止梯度操作,$\beta$为权重系数。

(2)提示-运动对齐预训练

  • 目标:构建文本-运动对齐的嵌入空间,解决语音-运动数据缺乏提示标注的问题。
  • 方法:基于对比学习框架(TMR),损失函数包含重构损失、KL散度、跨模态相似性损失和对比损失(式6-9):
    [ \mathcal{L}_{con} = \mathcal{L}r + \lambda{kl}\mathcal{L}_{kl} + \lambda_e\mathcal{L}e + \lambda{nce}\mathcal{L}_{nce}
    ]
    通过运动编码器为无标注数据生成隐标签(implicit label),替代缺失的文本提示。

(3)生成模型训练

  • 目标:在对齐的嵌入空间中训练扩散模型,支持双条件生成。
  • 方法:采用分类器无关引导(classifier-free guidance),随机掩码语音或提示条件(掩码率$\eta_a=\eta_p=0.1$),增强模型对条件信号的理解。

3. 推理策略

分离-组合流程(图3下半部分):
1. 条件分离:将隐变量分解为无条件预测、语音引导和提示引导三部分(式4):
[ z{cond} = z{uncond} + wa z{speech} + wp z{prompt}
]
其中$w_a$和$w_p$为引导强度系数。
2. 部位分离:根据提示解析身体部位(如“坐下”对应下半身),对每个部位独立生成隐变量后加权融合(式5)。
3. 平滑优化:添加平滑项避免动作不连贯,最终通过解码器生成全身运动。


主要结果

1. 全身协同生成(图4)

在兴奋和平静两种语音输入下,Syntalker成功生成符合提示的协同运动:
- “顺时针绕圈行走”:下肢严格遵循路径,上肢根据语音节奏摆动(兴奋状态下幅度更大)。
- “单脚站立”:平衡动作与语音内容自然融合,无肢体冲突。
- “手持茶杯坐下”:手部持杯动作与坐姿同步,且茶杯位置符合物理约束。

2. 单条件生成性能

(1)语音-运动生成(表2)

在BEATX测试集上,Syntalker的FGD(Frechet Gesture Distance)为6.413,优于EMAGE(5.423)和DiffStyleGesture(10.137),表明其语音表征能力更强。

(2)文本-运动生成(表1)

在HumanML3D测试集上,Syntalker的R-precision(0.375)接近T2M-GPT(0.433),但多样性得分(4.385)显著更高,证明其能生成更丰富的动作。

3. 消融实验(图5)

  • 移除隐标签:模型仅响应提示,生成静态坐姿(图5b)。
  • 移除分离-组合策略:下肢动作错误(如“坐下”变为轻微屈膝,图5c)。
  • 移除运动预训练:无法生成分布外动作(如“僵尸模仿”,图5d)。

结论与价值

科学意义
1. 首次实现语音和文本提示协同控制的全身运动生成,突破现有方法的上肢动作局限。
2. 提出隐标签和分部位扩散策略,为多模态条件生成提供新范式。

应用价值
- 虚拟角色动画:支持游戏NPC、虚拟主播等场景的复杂交互(如边行走边介绍产品)。
- 跨数据集迁移:通过RVQ-VAE和对比学习,有效融合异构数据集(BEATX+AMASS)。

亮点
1. 数据效率:无需额外标注,利用现成数据集解决提示缺失问题。
2. 可控性:通过引导系数($w_a$, $w_p$)灵活调节语音与提示的权重。
3. 可扩展性:模块化设计支持添加新身体部位(如面部表情)。

局限与展望
- 当前提示理解仍基于信号强度而非语义解析,未来可结合大语言模型(LLM)提升意图识别。
- 手势控制受限于数据集标注,需构建更丰富的手部动作库。

(注:全文约2000字,涵盖方法细节、实验结果与学术价值分析)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com