分享自:

MER 2024:半监督学习、噪声鲁棒性与开放词汇多模态情感识别

期刊:Proceedings of the 2nd International Workshop on Multimodal and Responsible Affective Computing (MRAC '24)DOI:10.1145/3689092.3689959

这篇文档属于类型a,是一篇关于多模态情感识别的原创研究论文。以下为详细的学术报告内容:

主要作者及机构
该研究由Zheng Lian(中国科学院自动化研究所)、Haiyang Sun(中国科学院自动化研究所)、Licai Sun(中国科学院自动化研究所)等来自中国科学院自动化研究所、中国人民大学、上海交通大学、新加坡南洋理工大学、芬兰奥卢大学等机构的学者合作完成,发表于2024年10月28日至11月1日在澳大利亚墨尔本举办的MRAC ‘24(国际多模态与负责任情感计算研讨会),论文标题为《MER 2024: Semi-supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition》。


学术背景
研究领域为人工智能中的多模态情感识别(Multimodal Emotion Recognition)。当前情感识别系统面临三大挑战:
1. 标注数据稀缺:真实场景中情感样本稀疏,且多数标注依赖人工多数投票(majority voting),可能忽略非主流情感标签。
2. 环境噪声干扰:实际场景中音频噪声和图像模糊等问题影响模型鲁棒性。
3. 标签空间受限:现有数据集通常固定情感类别,无法覆盖开放词汇(open-vocabulary)的复杂情感表达。

为此,研究团队延续2023年MER竞赛(MER2023)的框架,在2024年竞赛(MER2024)中新增开放词汇情感识别赛道,旨在通过半监督学习、噪声鲁棒性优化和开放标签生成,推动多模态情感识别技术的实用化进展。


研究流程与方法
研究分为三个核心赛道,分别对应不同技术挑战:

  1. MER-Semi(半监督学习赛道)

    • 数据集构建:基于MER2023扩展,合并所有标注样本形成5,030条标注数据(train&val),并新增115,595条未标注视频数据。
    • 特征提取:采用多模态特征融合策略,包括:
      • 视觉模态:使用VideoMAE、CLIP等预训练模型提取特征,强调领域适配性(如基于VoxCeleb2和MER2023微调的模型)。
      • 声学模态:优先选择中文语料训练的编码器(如HuBERT-large、Whisper-large)。
      • 文本模态:采用大语言模型(如Baichuan-13B、ChatGLM2-6B)提升语义理解能力。
    • 融合与训练:通过注意力机制(attention mechanism)加权融合多模态特征,采用五折交叉验证优化超参数。
  2. MER-Noise(噪声鲁棒性赛道)

    • 噪声模拟:在1,170条标注数据中添加两类噪声:
      • 音频噪声:从MUSAN数据集的语音子集中随机选取信噪比(SNR 5dB~10dB)的加性噪声。
      • 图像模糊:通过下采样(因子r∈{1,2,4})和上采样模拟低分辨率帧。
    • 鲁棒性优化:鼓励参赛者使用数据增强(data augmentation)或领域自适应技术(如GCNet)提升模型抗噪能力。
  3. MER-OV(开放词汇赛道)

    • 标注方法:基于GPT-3.5从多模态线索(声学、视觉、文本)生成开放标签,人工校验后形成332条样本的黄金标准集(ground truth)。
    • 评估协议:要求模型生成任意数量的情感标签,通过集合级准确率(accuracyₛ)和召回率(recallₛ)评估,并利用GPT-3.5对同义词分组以消除表达差异。

创新方法
- 多模态大模型(MLLMs)基线:在MER-OV中直接使用预训练的MLLMs(如Video-LLaMA、PandaGPT)进行零样本推理,避免监督训练的标注成本。
- 领域适配特征提取:通过微调视觉编码器(如VideoMAE-base on MER2023)提升跨域泛化能力。


主要结果
1. MER-Semi与MER-Noise性能
- 最优模型:三模态(声学+视觉+文本)融合的注意力模型在MER-Semi中加权平均F1分数(WAF)达86.73%,在MER-Noise中达79.62%。
- 关键发现
- 半监督模型(如CLIP-large)显著优于纯监督模型(如SENet-FER2013)。
- 声学模态中,HuBERT-large(WAF 73.02%)表现最佳,凸显大规模预训练的优势。

  1. MER-OV基线对比
    • MLLMs(如GPT-4V、Chat-UniVI)平均得分(avg)为56.69%,但仍显著落后于人工标注(差距约43%),反映开放词汇任务的难度。
    • 启发式基线(如随机标签)得分仅19.13%,验证MLLMs的初步有效性。

结论与价值
1. 科学价值
- 提出首个开放词汇多模态情感识别评估框架,突破固定标签空间的限制。
- 验证了半监督学习和噪声鲁棒性技术在真实场景中的必要性。

  1. 应用价值
    • 为情感计算在复杂环境(如在线会议、心理健康监测)中的落地提供技术基准。
    • 开源工具链(如MER-Tools)和数据集(MER2024)促进领域内可复现研究。

研究亮点
- 任务创新:首次引入开放词汇情感识别赛道,推动细粒度情感分析发展。
- 方法整合:结合预训练大模型与传统多模态融合,平衡性能与效率。
- 数据规模:发布迄今最大的中文多模态情感数据集(含11万+未标注样本)。

其他贡献
- 提出基于GPT-3.5的同义词分组策略,解决开放标签评估中的语义歧义问题。
- 公开基线代码(GitHub仓库)及详细实验配置,支持后续研究扩展。

(报告全文约1,800字,涵盖研究全貌及技术细节)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com