这篇文档属于类型a,是一篇关于多模态情感识别的原创研究论文。以下为详细的学术报告内容:
主要作者及机构
该研究由Zheng Lian(中国科学院自动化研究所)、Haiyang Sun(中国科学院自动化研究所)、Licai Sun(中国科学院自动化研究所)等来自中国科学院自动化研究所、中国人民大学、上海交通大学、新加坡南洋理工大学、芬兰奥卢大学等机构的学者合作完成,发表于2024年10月28日至11月1日在澳大利亚墨尔本举办的MRAC ‘24(国际多模态与负责任情感计算研讨会),论文标题为《MER 2024: Semi-supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition》。
学术背景
研究领域为人工智能中的多模态情感识别(Multimodal Emotion Recognition)。当前情感识别系统面临三大挑战:
1. 标注数据稀缺:真实场景中情感样本稀疏,且多数标注依赖人工多数投票(majority voting),可能忽略非主流情感标签。
2. 环境噪声干扰:实际场景中音频噪声和图像模糊等问题影响模型鲁棒性。
3. 标签空间受限:现有数据集通常固定情感类别,无法覆盖开放词汇(open-vocabulary)的复杂情感表达。
为此,研究团队延续2023年MER竞赛(MER2023)的框架,在2024年竞赛(MER2024)中新增开放词汇情感识别赛道,旨在通过半监督学习、噪声鲁棒性优化和开放标签生成,推动多模态情感识别技术的实用化进展。
研究流程与方法
研究分为三个核心赛道,分别对应不同技术挑战:
MER-Semi(半监督学习赛道)
MER-Noise(噪声鲁棒性赛道)
MER-OV(开放词汇赛道)
创新方法
- 多模态大模型(MLLMs)基线:在MER-OV中直接使用预训练的MLLMs(如Video-LLaMA、PandaGPT)进行零样本推理,避免监督训练的标注成本。
- 领域适配特征提取:通过微调视觉编码器(如VideoMAE-base on MER2023)提升跨域泛化能力。
主要结果
1. MER-Semi与MER-Noise性能
- 最优模型:三模态(声学+视觉+文本)融合的注意力模型在MER-Semi中加权平均F1分数(WAF)达86.73%,在MER-Noise中达79.62%。
- 关键发现:
- 半监督模型(如CLIP-large)显著优于纯监督模型(如SENet-FER2013)。
- 声学模态中,HuBERT-large(WAF 73.02%)表现最佳,凸显大规模预训练的优势。
结论与价值
1. 科学价值
- 提出首个开放词汇多模态情感识别评估框架,突破固定标签空间的限制。
- 验证了半监督学习和噪声鲁棒性技术在真实场景中的必要性。
研究亮点
- 任务创新:首次引入开放词汇情感识别赛道,推动细粒度情感分析发展。
- 方法整合:结合预训练大模型与传统多模态融合,平衡性能与效率。
- 数据规模:发布迄今最大的中文多模态情感数据集(含11万+未标注样本)。
其他贡献
- 提出基于GPT-3.5的同义词分组策略,解决开放标签评估中的语义歧义问题。
- 公开基线代码(GitHub仓库)及详细实验配置,支持后续研究扩展。
(报告全文约1,800字,涵盖研究全貌及技术细节)