分享自:

AffectGPT:一种新的多模态大语言模型情感理解数据集、模型与基准

期刊:Proceedings of the 41st International Conference on Machine Learning

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


AffectGPT:多模态大语言模型在情感理解领域的新突破

一、研究团队与发表信息
本研究由来自中国科学院自动化研究所、University of Oulu、清华大学等机构的Zheng Lian、Haoyu Chen、Jianhua Tao等学者共同完成,发表于2025年国际机器学习会议(ICML 2025),论文标题为《AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models》。

二、学术背景与研究目标
情感计算是人工智能领域的重要研究方向,传统的情感识别方法(Multimodal Emotion Recognition, MER)依赖预定义的离散情感分类(如Ekman的六类基本情绪),难以捕捉真实场景中复杂、共存的情绪状态。随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的发展,情感理解正从判别式任务转向生成式框架,但面临两大挑战:
1. 数据瓶颈:现有标注数据集规模有限,且缺乏细粒度、描述性的情感标注;
2. 模型局限:现有MLLMs将跨模态交互完全交给语言模型处理,未充分考虑情感任务的多模态特性。

为此,本研究提出三大创新:
- 构建目前最大规模的描述性情感数据集MER-Caption;
- 开发新型模型AffectGPT,通过预融合(pre-fusion)操作增强多模态整合;
- 建立统一评测基准MER-UniBench,适配MLLMs的自由文本输出风格。

三、研究流程与方法
1. 数据集构建(MER-Caption)
- 数据来源:基于MER2024未标注部分,包含115,595个粗标注样本和31,327个精标注样本,覆盖2,932种细粒度情感类别。
- 标注策略:采用“模型主导-人工辅助”(model-led human-assisted)的半自动标注流程:
- 描述生成:通过实验筛选最优模型组合——Salmonn(音频LLM)提取音频线索、Chat-UniVi(视频LLM)提取视觉线索,GPT-3.5整合多模态信息生成描述。
- 样本过滤:采用两级过滤(低层:剔除音视频不匹配及异常长度描述;高层:基于多模态分类器投票验证标签一致性)。
- 创新点:通过人类先验指导模型选择与过滤,平衡标注质量与规模。

  1. 模型设计(AffectGPT)

    • 架构改进:在主流MLLMs三组件(模态编码器、连接器、LLM生成器)基础上,引入预融合模块,将跨模态交互移至LLM外部:
      • Q-Former预融合:通过可学习查询令牌压缩多模态特征,保留时序信息;
      • 注意力预融合:直接压缩时序特征后计算模态间注意力权重。
    • 训练细节:冻结视觉编码器(CLIP ViT-L)和音频编码器(HuBERT-L),仅微调LoRA模块(rank=16)、投影层及预融合分支。
  2. 评测基准(MER-UniBench)

    • 任务设计:覆盖三类典型MER任务——细粒度情感识别(OV-MERD+数据集)、基本情感识别(MER2023等4个数据集)、情感极性分析(CMU-MOSI等4个数据集)。
    • 评估指标:针对MLLMs自由文本输出特性,创新提出:
      • 集合级指标:通过三级情感词分组(词形归一化、同义词映射、情感轮层级映射)解决标签多样性问题;
      • 命中率(Hit Rate):用于基本情感识别,判断真实标签是否存在于预测标签集合中。

四、主要研究结果
1. 数据集性能验证
- MER-Caption在MER-UniBench上平均得分达74.77,显著优于其他描述性数据集(如MAFW:58.16;MERR-Fine:64.55)。
- 用户研究表明,其标注质量优于纯模型标注(MERR-Coarse)和人工筛选(MERR-Fine)策略(胜率分别达86%和59%)。

  1. 模型性能对比

    • AffectGPT在全部任务中领先现有MLLMs,平均性能提升9%以上。例如:
      • 细粒度情感识别:Fs分数61.65(对比Chat-UniVi的48.00);
      • 基本情感识别:命中率78.54%(对比Salmonn的55.53%)。
    • 消融实验证明预融合操作是关键:Q-Former和注意力预融合分别带来1.21%和1.82%的性能提升。
  2. 多模态输入分析

    • 音频+视频+文本三模态输入效果最优(74.77分),但单独使用面部图像(74.60分)与全帧视频(73.39分)差异不大,表明当前MER数据集中于人物表情分析。

五、结论与价值
1. 科学意义
- 首次实现大规模描述性情感数据集的半自动构建,突破人工标注成本限制;
- 验证预融合操作对多模态情感任务的有效性,为MLLMs的跨模态设计提供新思路。

  1. 应用价值
    • 推动教育、心理咨询、人机交互等领域的情感AI发展;
    • 公开数据集与代码(GitHub仓库)助力后续研究。

六、研究亮点
1. 规模与质量平衡:MER-Caption通过模型自动化与人类先验的结合,实现115K样本量级下保持高质量标注。
2. 模态融合创新:AffectGPT将跨模态交互从LLM剥离,通过预融合强化低层级特征整合。
3. 评测基准适配性:MER-UniBench首次针对MLLMs自由输出设计量化指标,解决传统分类指标不适用问题。

七、其他发现
- 音频编码器选择对性能影响较小(ImageBind vs. HuBERT-L差异%),而视觉编码器中CLIP ViT-L表现最优;
- LoRA微调LLM时,rank=16即可平衡效果与计算成本,进一步增加参数无显著增益。


该研究通过数据、模型、评测三位一体的创新,为复杂情感建模开辟了新路径,其方法论对多模态学习领域具有普适参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com