分享自:

AffectGPT:一种新的多模态大语言模型情感理解数据集、模型与基准

期刊:Proceedings of the 41st International Conference on Machine Learning

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


多模态大语言模型在情感理解领域的新突破:AffectGPT数据集、模型与基准测试

一、作者与发表信息
本研究由Zheng Lian(中国科学院自动化研究所)、Haoyu Chen(奥卢大学CMVS)、Lan Chen(中国科学院自动化研究所)等来自7所机构的学者共同完成,发表于2025年国际机器学习会议(ICML 2025)论文集(PMLR 267)。

二、学术背景
1. 研究领域:多模态情感识别(Multimodal Emotion Recognition, MER)是人工智能领域的重要方向,旨在通过整合音频、视频和文本信息理解人类情感状态。传统方法依赖预定义情感分类(如Ekman的六类基本情绪),但难以捕捉真实场景中情感的多样性和共存性。
2. 研究动机:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)为生成式情感描述提供了可能,但当前领域面临两大挑战:
- 缺乏大规模、细粒度的情感标注数据集;
- 现有MLLMs未充分优化多模态融合机制,影响情感理解性能。
3. 研究目标:构建首个以MLLMs为核心的情感理解框架,包括:(1) 大规模描述性情感数据集MER-Caption;(2) 新型模型AffectGPT;(3) 统一评估基准MER-UniBench。

三、研究流程与方法
1. 数据集构建(MER-Caption)
- 数据来源:基于MER2024未标注部分,包含115,595个样本(音频-视频-文本三元组)。
- 标注策略:提出“模型主导-人工辅助”(Model-led Human-assisted)的众包标注方法:
- 描述生成:通过预实验筛选最优模型组合——音频线索由Salmonn(音频LLM)生成,视觉线索由Chat-UniVi(视频LLM)提取,文本整合采用GPT-3.5。
- 样本过滤:采用两级过滤(低层:模态匹配检查与异常长度剔除;高层:基于多模态分类器的模型众包投票)。
- 结果:最终生成31,327个精细标注样本(MER-Caption+),涵盖2,932种细粒度情感类别,是目前规模最大、情感类别最丰富的多模态情感描述数据集。

  1. 模型设计(AffectGPT)

    • 架构创新:在主流MLLMs三组件(模态编码器、连接器、LLM生成器)基础上,引入预融合操作(Pre-fusion),将跨模态交互移至LLM外部:
      • Q-Former预融合:通过可学习查询令牌压缩多模态特征,保留时序信息;
      • 注意力预融合:直接压缩时序特征后计算跨模态注意力权重。
    • 训练细节:冻结视觉编码器(CLIP ViT-L)和音频编码器(HuBERT-L),仅微调LoRA模块(rank=16)、投影层和预融合分支。
  2. 基准测试(MER-UniBench)

    • 任务设计:覆盖三类典型MER任务——细粒度情感识别(OV-MERD+数据集)、基本情感识别(MER2023等4个数据集)、情感极性分析(CMU-MOSI等4个数据集)。
    • 评估指标:针对MLLMs的自由格式输出特性,提出:
      • 细粒度任务:基于情感轮(Emotion Wheel)的三级分组策略消除同义词影响,采用集合级F-score(Fs);
      • 基本情感任务:命中率(Hit Rate)判断预测标签是否覆盖真实标签;
      • 情感分析任务:加权F-score(WAF)为主指标。

四、主要结果
1. 模型性能:AffectGPT在MER-UniBench上平均得分74.77,较现有MLLMs提升9%以上。例如:
- 细粒度任务:Fs达62.52,显著优于Chat-UniVi(48.00)和Emotion-LLaMA(52.97);
- 基本情感任务:命中率78.54(MER2023),超过Salmonn(55.53)和Qwen-Audio(41.85);
- 情感分析:WAF达88.49(CH-SIMS v2),验证多模态融合的有效性。

  1. 数据质量验证:用户研究表明,MER-Caption+的描述准确率优于MERr-Fine(人工过滤数据集)和MERr-Coarse(纯模型标注数据集),胜率分别为59%和86%。

  2. 消融实验

    • 预融合必要性:移除预融合操作导致性能下降1.82点(72.95→74.77);
    • 输入模态分析:音频+面部+文本组合效果最佳(74.77),单独使用视频帧会引入噪声。

五、结论与价值
1. 科学意义
- 首次系统解决了MLLMs在情感理解中的数据集缺失和模态融合不足问题;
- 提出的模型主导标注策略为大规模高质量情感数据构建提供了新范式。
2. 应用价值
- AffectGPT可赋能教育、心理咨询、人机交互等领域,实现更自然的情感计算;
- MER-UniBench为后续研究提供了标准化评估框架。

六、研究亮点
1. 方法创新
- 标注策略:通过人类先验指导模型筛选与样本过滤,平衡数据规模与质量;
- 预融合机制:突破传统MLLMs依赖LLM内部融合的局限,显式增强多模态交互。
2. 资源贡献:开源数据集(115K样本)与代码(GitHub),推动领域发展。

七、其他发现
- 模态冲突处理:GPT-3.5在音频、视频、文本情感不一致时仍能生成合理描述(见图6案例),体现其强大推理能力;
- 计算效率:LoRA微调策略使训练显存占用降低40%,适配轻量化部署需求。


(注:实际生成文本约1800字,完整报告可进一步扩展实验细节或案例。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com