对比式解耦表示学习与正则化用于语音保留的面部表情操纵

对比解耦表示学习在语音保留面部表情操控中的应用

背景介绍

近年来,随着虚拟现实、影视制作以及人机交互技术的快速发展,面部表情操控(Facial Expression Manipulation)成为计算机视觉和图形学领域的研究热点之一。其中,语音保留面部表情操控(Speech-Preserving Facial Expression Manipulation, SPFEM) 的目标是在保持说话者嘴部动作与语音同步的同时,改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力,还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。

然而,SPFEM 的实现面临诸多挑战。首先,语音内容和情绪信息在自然对话中高度交织,导致难以从参考视频或源视频中有效分离这两种信息。其次,现有的方法往往依赖于简单的监督信号(如参考图像或3D人脸模型参数),但这些信号可能包含偏差,从而影响最终生成结果的真实性和准确性。因此,如何设计一种有效的算法,能够在操控情绪的同时保留语音-唇形同步性,成为一个亟待解决的问题。

针对上述问题,Tianshui Chen 等人提出了一种创新性的 对比解耦表示学习(Contrastive Decoupled Representation Learning, CDRL)算法,通过分别学习独立的内容表示和情绪表示,为 SPFEM 提供了更加直接和精确的监督信号。


论文来源

这篇论文由 Tianshui Chen 和 Jianman Lin 共同担任第一作者,Zhijing Yang 为主要通讯作者。作者们来自广东工业大学、华南理工大学以及中山大学。论文发表于国际知名期刊《International Journal of Computer Vision》(IJCV),并于2025年1月被正式接受。论文标题为“Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation”。


研究细节

a) 研究流程

本研究的核心是设计并实现了一种全新的 CDRL 算法,该算法分为两个主要模块:对比内容表示学习(Contrastive Content Representation Learning, CCRL)对比情绪表示学习(Contrastive Emotion Representation Learning, CERL)。以下是具体的研究流程:

1. 数据准备

研究基于 MEAD 数据集(Multilingual Emotional Audio-Visual Dataset)进行训练和验证。MEAD 包含60名说话者的视频数据,每名说话者录制了7种情绪状态下的30段视频。为了构建配对数据,作者使用动态时间规整(Dynamic Time Warping, DTW)算法对两段具有相同语音内容但不同情绪的视频进行对齐,从而获得一对一的训练样本。

2. 对比内容表示学习(CCRL)

  • 目标:学习仅包含语音内容的信息表示,排除情绪干扰。
  • 方法
    • 使用音频作为内容先验,通过交叉注意力机制(Cross-Attention Mechanism)提取源图像的内容特征。
    • 引入情绪感知对比损失(Emotion-Aware Contrastive Loss),确保正样本(相同语音内容但不同情绪)之间的相似度最大化,而负样本(不同语音内容但相同情绪)之间的相似度最小化。
    • 音频特征提取采用预训练的 XLSR 模型,图像特征提取则结合 ArcFace 和映射操作。
  • 实验设置:训练过程使用 GeForce RTX 4090 显卡,优化器为 Adam,初始学习率为 0.0001,训练持续 10 个周期。

3. 对比情绪表示学习(CERL)

  • 目标:学习仅包含情绪的信息表示,排除语音内容干扰。
  • 方法
    • 利用预训练的视觉-语言模型(如 CLIP)和提示调优(Prompt Tuning)技术,提取情绪先验。
    • 引入情绪增强对比损失(Emotion-Augmented Contrastive Loss),选择高情绪清晰度的图像作为训练样本。
    • 通过点积操作将情绪先验与图像特征融合,从而获得情绪表示。
  • 实验设置:训练过程中仅更新提示向量 ( t_i ),其他参数固定。优化器为随机梯度下降(SGD),初始学习率为 0.1,并在第2、4、6周期降低学习率。

4. SPFEM 模型训练

  • 在 SPFEM 模型训练阶段,CDRL 提供的内容表示和情绪表示被用作额外的监督信号。
  • 内容表示用于约束生成图像与源输入之间的内容一致性,情绪表示用于约束生成图像与参考输入之间的情绪一致性。

b) 主要结果

1. 定量比较

研究在 MEAD 和 RAVDESS 数据集上进行了广泛的定量评估,使用以下三个指标衡量生成结果的质量: - FAD(Fréchet ArcFace Distance):衡量生成图像的真实性,值越低越好。 - CSIM(Cosine Similarity):衡量生成图像与参考图像的情绪相似度,值越高越好。 - LSE-D(Lip Sync Error Distance):衡量生成图像的唇形与语音同步性,值越低越好。

实验结果显示,在 MEAD 数据集的跨身份(Cross-ID)设置下,CDRL 算法显著提升了所有指标。例如,当应用于 NED 基线模型时,平均 FAD 从 4.448 降至 4.344,LSE-D 从 9.906 降至 9.351,CSIM 从 0.773 提升至 0.792。类似地,在 RAVDESS 数据集上,CDRL 也表现出一致的性能提升。

2. 定性比较

定性分析进一步验证了 CDRL 的有效性。例如,NED 基线模型在情绪编辑过程中容易出现嘴形失真,而集成 CDRL 后,生成图像能够更好地保持嘴形与语音同步,同时实现准确的情绪迁移。

3. 用户研究

研究还进行了用户调查,邀请25名参与者对生成结果的真实性、情绪相似度和嘴形同步性进行评分。结果表明,CDRL 在所有指标上均显著优于基线模型。例如,在 MEAD 数据集上,CDRL 将真实感评分提高了 40%,情绪相似度评分提高了 38%,嘴形同步性评分提高了 48%。


c) 结论与意义

本研究提出的 CDRL 算法为 SPFEM 提供了一种新颖且高效的解决方案。通过分别学习独立的内容表示和情绪表示,CDRL 不仅能够更准确地操控情绪,还能有效保留语音-唇形同步性。此外,CDRL 还展示了良好的泛化能力,即使在未重新训练的情况下,也能在新数据集(如 RAVDESS)上取得优异表现。

该研究具有重要的科学价值和应用前景。一方面,它为解耦表示学习提供了一种新的思路,可广泛应用于多模态数据处理领域;另一方面,它为虚拟角色生成、影视后期制作等实际应用提供了技术支持。


d) 研究亮点

  1. 创新性算法设计:首次提出了 CDRL 算法,通过 CCRL 和 CERL 模块分别学习内容和情绪表示。
  2. 对比学习的应用:利用对比学习框架,成功实现了内容与情绪信息的解耦。
  3. 多模态数据融合:结合音频和图像数据,充分利用了多模态信息的优势。
  4. 用户研究验证:通过大规模用户调查,全面评估了生成结果的质量。

e) 其他有价值信息

研究团队还探讨了 CDRL 的局限性,例如在某些情况下无法完美转移牙齿等细节特征。未来工作计划通过对抗训练进一步提高算法的泛化能力。


总结

这篇论文通过提出 CDRL 算法,解决了 SPFEM 中长期存在的内容与情绪信息解耦难题。其创新性的工作流程、严谨的实验设计以及卓越的性能表现,使其成为该领域的重要里程碑。