多模态人际视频情感预测:融合面部表情与语音线索的深度学习框架
一、作者与发表信息
本研究由意大利佛罗伦萨大学信息工程系的Hajer Guerdelli、Stefano Berretti、Alberto Del Bimbo与锡耶纳大学信息工程与数学系的Claudio Ferrari合作完成,发表于2025年IEEE/CVF计算机视觉与模式识别研讨会(CVPRW),论文标题为《Multimodal Emotion Prediction in Interpersonal Videos: Integrating Facial and Speech Cues》。
二、学术背景
科学领域:本研究属于情感计算(Affective Computing)与多模态机器学习(Multimodal Machine Learning)交叉领域,聚焦于动态人际交互中的情感预测。
研究动机:传统单模态情感识别(如仅依赖面部或语音)存在局限性:面部表情易受遮挡、光照影响,语音则受背景噪声和语言差异干扰。人际交互中,情感状态受对话双方双向影响,需融合多模态数据以提升预测准确性。
研究目标:开发一个融合面部表情与语音特征的多模态框架,通过时序建模(LSTM)预测视频交互中的情感动态,并解决模态对齐与缺失数据问题。
三、研究流程与方法
1. 数据准备与标注
- 数据集:采用iMEmo数据集,包含100段电影视频片段,标注16类情感、6类基本情绪及情感极性(正/负/中性)。
- 多模态对齐策略:将语音特征与面部表情标签对齐,人工筛选确保语音与说话者面部匹配,剔除无声或手语片段。最终保留658段含语音片段(占比53.41%),缺失语音的片段用零向量填充。
2. 特征提取
- 面部特征:使用基于注意力机制的Distract Your Attention Network(DAN),包含特征聚类网络(FCN)、多头交叉注意力网络(MAN)和注意力融合网络(AFN),输出128维特征向量。
- 语音特征:采用自监督学习模型Wav2Vec 2.0提取帧级语音特征,经均值池化得到128维向量。
3. 多模态融合与预测
- 特征融合:将面部与语音特征拼接为256维向量,输入单层LSTM(隐藏层128维)建模时序依赖。
- 分类任务:分为情感极性(3类)、基本情绪(6类)和细粒度情感(16类)三类任务,预测下一片段的情感状态。
4. 实验设计
- 对比模型:面部单模态模型、语音单模态模型(仅含语音片段)、多模态模型。
- 评估协议:按iMEmo原论文划分83%训练集与17%验证集,以预测准确率为指标。
四、主要结果
1. 多模态融合的优越性
- 情感极性分类:多模态模型准确率达82.35%,较面部单模态(64.71%)提升17.64%,表明语音特征有效补充面部模糊场景(如中性表情下的隐含情绪)。
- 基本情绪识别:多模态模型准确率41.18%,高于面部单模态(35.29%),语音帮助区分视觉相似的愤怒与厌恶。
- 细粒度情感:多模态模型(23.53%)略低于面部单模态(29.41%),因语音对细微情绪(如羞耻与愧疚)区分能力有限。
2. 人际情感动态建模
- 双主体分析:同时利用对话双方历史情感时,6类情绪识别准确率提升至41.18%(单主体仅23.53%),验证人际情感双向影响的必要性。
- 语音缺失处理:零向量编码使模型在53%语音缺失片段中仍保持功能,但语音单模态模型因数据稀疏表现较差(16类准确率17.65%)。
3. 可视化分析
时序预测图显示,模型在情感极性任务中动态调整模态权重(如高语音贡献度用于区分讽刺语气),而在细粒度任务中更依赖面部微表情。
五、结论与价值
科学价值:
1. 提出首个针对iMEmo数据集的多模态人际情感预测框架,首次结合Wav2Vec 2.0语音特征与注意力面部特征。
2. 验证多模态融合在情感极性与基本情绪任务中的有效性,为复杂社交场景的情感计算提供新范式。
应用价值:
1. 可应用于人机交互(如情感化机器人)、心理健康监测(如抑郁症对话分析)等领域。
2. 提出的零向量编码策略为缺失模态处理提供通用解决方案。
局限性:细粒度情感识别仍需改进,未来需探索跨模态自监督学习以降低标签噪声影响。
六、研究亮点
1. 创新方法:开发语音-面部对齐策略与零向量编码,解决多模态数据异步与缺失问题。
2. 人际情感建模:首次在iMEmo数据集中显式建模双主体情感动态,超越传统单主体分析。
3. 实用贡献:开源代码与适配后的多模态iMEmo数据集,推动领域基准研究。
其他价值:研究揭示了语音在高层情感分类(如积极/消极)中的补充作用,为多模态融合的模态权重分配提供实证依据。