本文介绍的研究论文《indicator-aware talking face generation based on evolutionary multi-objective optimization》由Ge Guo(南方科技大学与平安科技联合培养)、Wenjing Hong(南方科技大学)、Chaoyong Zhou(平安科技)和Xin Yao(南方科技大学)共同完成,发表于2022年IEEE Symposium Series on Computational Intelligence(SSCI)会议论文集。该研究针对音频驱动说话人脸生成(Audio-driven Talking Face Generation, ATFG)任务中存在的多目标优化挑战,提出了一种基于进化多目标优化的创新方法。
学术背景
ATFG任务旨在通过输入音频生成逼真、口型同步且表情自然的说话人脸视频。该技术广泛应用于虚拟客服、影视配音等领域。传统方法主要通过以下两种路径实现:(1) 基于2D landmarks或3D形变模型等中间表示的结构化方法(如Chen等2019年工作);(2) 基于图像与音频潜在特征的端到端重建方法(如Wav2Lip模型)。然而,现有研究存在两个核心问题:一是采用加权损失函数作为代理指标(proxy),无法保证最终质量指标的最优性;二是单目标优化范式难以平衡视觉质量(SSIM)、口型同步精度(LMD)等相互冲突的指标。
研究流程与方法
研究团队提出EMIG(Evolutionary Multi-objective Indicator-aware audio-driven talking face Generation)框架,其核心创新在于将ATFG建模为显式优化质量指标的多目标问题。具体流程分为五个关键步骤:
问题重构
将传统加权损失函数(公式1)转化为多目标优化问题(公式2),直接以SSIM(结构相似性)和LMD(唇部关键点距离)作为优化目标。其中,SSIM衡量生成帧的视觉质量,LMD评估口型与音频的同步精度。
算法设计
- 双层参数结构:上层为损失权重λ(通过遗传算法优化),下层为神经网络参数w(通过梯度下降更新)。
- 混合优化策略:结合NSGA-II算法(非支配排序遗传算法)处理离散指标空间,配合梯度下降微调网络,解决传统方法无法处理非可微指标的问题。
- Wav2Lip基模型改造:以GAN架构为基础,保留其身份编码器、语音编码器和人脸解码器模块,但将训练目标改为直接优化SSIM和LMD的双目标函数(公式3)。
实验配置
- 数据集:采用LRS2(牛津BBC句子数据集)和LRW(野生环境单词数据集),输入为5帧连续人脸图像(96×96分辨率)与对应16kHz音频的梅尔频谱。
- 对比方法:包括AVTG(2D landmarks)、Yi(3D参数化)、DAVS(对抗表征学习)、PC-AVS(姿态可控系统)和Wav2Lip。
- 评价指标:除SSIM与LMD外,增加人工主观评估生成视频的唇同步自然度与面部纹理质量。
进化优化流程
- 初始化包含10个个体的种群,每个个体代表一组λ-w参数组合。
- 每代通过交叉变异生成新λ,配合1个epoch的梯度更新w(公式4)。
- 采用非支配排序与拥挤距离选择Pareto前沿解,最终输出一组最优权衡解。
验证与测试
- 跨数据集泛化:在LRS2上训练的模型直接测试LRW数据,验证鲁棒性。
- 消融实验:对比单独优化SSIM或LMD的模型,证明多目标优化的必要性。
主要结果
定量分析
- EMIG在LRS2数据集上达到SSIM 0.903(Wav2Lip为0.879)和LMD 1.340(Wav2Lip为1.865),在LRW上SSIM提升1.7%,LMD降低13.3%。
- 跨数据集测试中,未微调的EMIG模型在LRW上仍优于其他方法的专用模型(见表I),证明其泛化能力。
定性分析
- 如图2所示,EMIG生成的”January”发音口型更接近真实”ja”音素(Wav2Lip误判为”a”音),且面部纹理更清晰(PC-AVS存在模糊)。
- 在”join”案例中,EMIG消除了Wav2Lip的下巴错位问题,表明多目标优化能协同提升全局与局部质量。
结论与价值
科学价值
- 首次将进化多目标优化引入ATFG领域,证明直接优化终端指标(而非代理损失)的有效性。
- 提出双层参数优化框架,为处理非可微指标的黑箱优化问题提供通用范式。
应用价值
- 用户可通过Pareto前沿自由选择SSIM-LMD权衡方案,适配不同场景需求(如高精度口型或高画质)。
- 代码开源设计促进工业界应用,已在平安科技虚拟客服系统部署。
研究亮点
- 方法创新:首次实现ATFG的指标感知(indicator-aware)优化,突破传统代理损失函数的局限性。
- 技术突破:结合NSGA-II与梯度下降的混合优化策略,解决非可微指标优化难题。
- 性能优势:在两项基准测试中全面超越现有方法,且计算成本可控(50代进化耗时约8GPU×32小时)。
未来方向
作者建议探索更高效的进化策略(如代理模型)、扩展至时序建模任务(如长视频生成),以及研究多目标优化在其他生成任务(如文本到视频)中的应用潜力。