基于对比特征解耦的音频驱动情感感知人脸动画

分享自：
基于对比特征解耦的音频驱动情感感知人脸动画

期刊:interspeechDOI:10.21437/interspeech.2023-358
本文介绍的研究是一项名为“通过对比特征解耦实现情感感知的音频驱动人脸动画”的原创性研究。该研究由来自中国湖南大学的任鑫*、罗娟*、钟雄虎、蔡敏杰†（†为通讯作者）共同完成。该论文已被Interspeech 2023会议收录，该会议于2023年8月20日至24日在爱尔兰都柏林举行，论文在会议录中的起始页码为2728。
研究背景与目的 本研究属于计算机视觉、多媒体技术以及生成式人工智能的交叉领域，具体聚焦于“音频驱动人脸动画”任务。该技术旨在根据输入的驱动语音，合成出具有真实感、口型与语音同步、表情自然流畅的说话人脸视频。该技术在远程会议、虚拟现实、电影配音等领域具有广泛的应用前景。 尽管该领域已取得显著进展，但现有方法仍面临核心挑战：音频信号中混杂着多种信息，它们与面部表情的关系各不相同。具体而言，一段语音中同时包含了语音内容、说话人瞬时的情感状态以及个体特有的发音特征。其中，语音内容和情感状态对面部表情（尤其是口型和表情幅度）有直接影响；而个体发音特征（如音色、口音）则主要与声音本身相关，与面部表情关系甚微。先前的研究大多直接将音频特征映射到面部表情，忽略了这些信息的耦合与解耦需求，导致生成的面部动画可能缺乏表现力，且难以根据同一段语音合成出带有不同情感色彩的多样化动画。 因此，本研究的目标是开发一种情感感知的音频驱动人脸动画方法。其核心科学问题是：如何从音频特征中有效解耦出语音内容、瞬时情感和个体身份特征，从而更精确地控制生成的面部动画，使其不仅口型准确，还能反映语音中的情感色彩，并实现多样化的风格生成。
详细研究流程 本研究将整个任务定义为一个两阶段的音频驱动图像转换问题。整个方法的总体框架可参见论文中的图1。
第一阶段：预处理与对比特征解耦 此阶段的目标是从输入音频中提取特征，并预测出与语音内容和说话风格相对应的面部关键点位移。 1. 音频特征提取与面部对齐： * 音频处理：为消除不同语言、录音伪影和噪声的影响，研究采用了一种少样本语音转换方法AutoVC来提取音频特征。AutoVC能够将音频分离为语音内容和身份信息，其输出的音频特征记为 ( f_a \in R^{T \times D} )，其中T是音频帧数，D是特征维度（每20ms音频为一帧）。 * 视频处理：从训练视频中提取3D面部关键点。为了消除头部姿态变化对关键点位置的影响，使模型学习更稳定的音频-关键点映射，研究采用迭代最近点算法将所有面部图像的关键点与平均关键点进行对齐，然后通过正交投影得到对齐后的2D面部关键点 ( L \in R^{68 \times 2} )，作为后续训练的基准真值。
对比特征解耦编码： 这是本研究的核心创新部分。研究设计了三个编码器分支，从统一的音频特征 ( f_a ) 中分离出不同信息：
内容编码器：由一个三层多层感知机和LSTM组成，用于捕获与语音内容相关的时序信息，输出内容编码 ( e_{content} )。
风格编码器：用于分离与说话风格相关的信息，该风格由瞬时情感和个体发音特征共同构成。具体地，使用两个独立的多层感知机分别将 ( fa ) 编码为情感嵌入 ( e{emotion} ) 和身份嵌入 ( e{identity} )。然后，使用一个自注意力编码器捕获两者之间的依赖关系，最终生成风格编码 ( e{style} )。
对比学习策略：为了强制模型将上述三种信息有效解耦，本研究设计了一个基于对比学习的训练策略。研究者精心构建了一个由四个视频片段（实际为三组对比关系）组成的训练批次：来自同一视频的两个片段 ( V_r ) 和 ( V_s )（假设情感相似），以及来自同一说话人但不同视频/场景的片段 ( V_p )（假设情感可能不同）。 情感解耦：构建对比损失 ( L_{emotion} )，旨在拉近 ( V_r ) 和 ( Vs ) 的情感嵌入 ( e{emotion} ) 的距离，同时推远 ( V_r ) 和 ( V_p ) 的情感嵌入的距离。为了给这种对比赋予权重，还引入了一个预训练的面部表情识别模型，计算各视频片段的情绪概率分布，并用其余弦相似度来加权对比损失。
身份解耦：构建损失 ( L_{identity} )，强制要求来自同一说话人的不同视频片段（( V_r ) 和 ( Vp )）的身份嵌入 ( e{identity} ) 尽可能相似，即假设身份代码在不同视频中保持不变。
关键点预测： 面部表情通过相对于参考面部图像的关键点位移来表示。使用两个多层感知机分别预测与内容编码相关的位移 ( d{content} ) 和与风格编码相关的位移 ( d{style} )。最终的预测关键点 ( L_p ) 由参考图像的关键点 ( L0 ) 加上这两部分位移得到。此阶段的训练损失 ( L{landmark} ) 是预测关键点与从视频中检测到的真实关键点之间的绝对坐标差。
第二阶段：图像到图像的转换 此阶段的目标是根据预测的关键点序列和一张参考人脸图像，合成最终的面部动画视频序列。 * 合成网络：采用一个U-Net模型作为图像到图像的转换网络。其输入是参考人脸图像与根据预测关键点绘制的一系列关键点图像的堆叠。输出是合成的人脸图像序列。 * 训练目标：此阶段的损失函数 ( L_{image} ) 是合成图像与真实图像之间的像素值差异。
训练流程：整个模型分三步进行训练：首先训练内容编码器部分；然后固定内容编码器，训练风格编码器部分（使用对比损失和身份损失）；最后训练图像转换网络。
主要实验结果 研究在VoxCeleb2和LRW两个公开数据集上进行了定量和定性实验，并与当前先进方法MakeItTalk和PC-AVS进行了比较，同时设置了消融实验基线。 1. 定量评估： * 评估指标：使用关键点距离（LMD，预测与真实关键点的平均欧氏距离，越低越好）和情感相似度（ES，合成图像与真实图像面部表情概率分布的余弦相似度，越高越好）。 * 结果：在VoxCeleb2数据集上，本文提出的完整模型取得了最佳性能（LMD: 4.15, ES: 0.919），显著优于对比方法。在LRW数据集上（由于该数据集缺少同一人在不同场景的视频，无法充分训练对比损失），模型仍取得了接近最优的性能（LMD: 4.06, ES: 0.900）。 * 消融研究：与去除风格位移预测的基线（Ours (w/o d_style)）和去除情感对比损失的基线（Ours (w/o L_emotion)）相比，完整模型表现最好。这证明了风格编码器的必要性，以及对比学习策略对于有效解耦情感信息、提升风格编码器性能的关键作用。
定性评估： 情感空间可视化：研究通过对所有训练视频的情感嵌入进行主成分分析，并沿着第一主成分采样不同的情感嵌入。实验表明，使用同一段驱动音频，但结合不同的情感编码，可以合成出从“严肃”到“兴奋”平滑过渡的面部动画，唇部运动幅度逐渐夸张（如图2所示）。
唇部距离曲线：可视化不同情感编码下生成动画的上下唇距离曲线。结果显示，曲线变化趋势（对应语音内容）基本一致，但唇部距离的幅度（对应情感风格）存在显著差异。这直观地证明了该方法能够在保持音频-口型一致性的同时，学习并合成多样化的说话风格。
结论与价值 本研究的结论是，通过提出的对比特征解耦方法，能够有效地从音频中分离语音内容、瞬时情感和身份特征，从而实现情感感知的、高质量音频驱动人脸动画。该方法不仅能合成出与语音内容高度同步的逼真面部表情，还能通过操纵解耦出的情感编码，生成具有不同情感色彩的多样化面部动画，增强了生成结果的表现力和可控性。 其科学价值在于为多模态信息处理中的特征解耦问题提供了一个新颖的对比学习解决方案，明确了音频信号中不同成分对面部动画的贡献，并建立了分离它们的有效机制。应用价值体现在能够生成更生动、个性化和情感丰富的虚拟数字人，推动其在人机交互、娱乐媒体等领域的应用。
研究亮点 1. 问题定义新颖：首次在音频驱动人脸动画任务中，明确且系统地区分并建模了语音内容、瞬时情感和个体发音特征这三种信息，指出了现有研究忽略情感因素对说话风格影响的不足。 2. 方法创新性强：提出了基于对比学习的特征解耦框架。通过精心设计的对比损失和身份一致性损失，无需显式的情感或身份标签，即可在无监督或弱监督下实现有效的特征分离，这是方法的核心创新点。 3. 两阶段流程清晰：将复杂的生成任务分解为“关键点预测”和“图像合成”两个相对独立的阶段，结构清晰，便于优化和扩展。 4. 实验结果扎实：通过充分的定量比较、消融实验和生动的定性展示（情感空间操控），全面验证了所提方法的有效性和优势。
其他有价值内容 研究在讨论部分也坦诚地指出了当前方法的局限性：首先，该方法仅能合成2D面部表情，未涉及3D头部姿态和形状的建模；其次，合成图像的质量受参考图像质量和头部位置变化的限制。针对这些不足，作者展望了未来的研究方向，包括尝试使用3D参数化人脸模型来建立音频与3D面部表情的映射，以进一步提升合成图像的质量和三维真实感。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问