这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
AffectGPT:多模态大语言模型在情感理解领域的新突破
一、研究团队与发表信息
本研究由来自中国科学院自动化研究所、University of Oulu、清华大学等机构的Zheng Lian、Haoyu Chen、Jianhua Tao等学者共同完成,发表于2025年国际机器学习会议(ICML 2025),论文标题为《AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models》。
二、学术背景与研究目标
情感计算是人工智能领域的重要研究方向,传统的情感识别方法(Multimodal Emotion Recognition, MER)依赖预定义的离散情感分类(如Ekman的六类基本情绪),难以捕捉真实场景中复杂、共存的情绪状态。随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的发展,情感理解正从判别式任务转向生成式框架,但面临两大挑战:
1. 数据瓶颈:现有标注数据集规模有限,且缺乏细粒度、描述性的情感标注;
2. 模型局限:现有MLLMs将跨模态交互完全交给语言模型处理,未充分考虑情感任务的多模态特性。
为此,本研究提出三大创新:
- 构建目前最大规模的描述性情感数据集MER-Caption;
- 开发新型模型AffectGPT,通过预融合(pre-fusion)操作增强多模态整合;
- 建立统一评测基准MER-UniBench,适配MLLMs的自由文本输出风格。
三、研究流程与方法
1. 数据集构建(MER-Caption)
- 数据来源:基于MER2024未标注部分,包含115,595个粗标注样本和31,327个精标注样本,覆盖2,932种细粒度情感类别。
- 标注策略:采用“模型主导-人工辅助”(model-led human-assisted)的半自动标注流程:
- 描述生成:通过实验筛选最优模型组合——Salmonn(音频LLM)提取音频线索、Chat-UniVi(视频LLM)提取视觉线索,GPT-3.5整合多模态信息生成描述。
- 样本过滤:采用两级过滤(低层:剔除音视频不匹配及异常长度描述;高层:基于多模态分类器投票验证标签一致性)。
- 创新点:通过人类先验指导模型选择与过滤,平衡标注质量与规模。
模型设计(AffectGPT)
评测基准(MER-UniBench)
四、主要研究结果
1. 数据集性能验证
- MER-Caption在MER-UniBench上平均得分达74.77,显著优于其他描述性数据集(如MAFW:58.16;MERR-Fine:64.55)。
- 用户研究表明,其标注质量优于纯模型标注(MERR-Coarse)和人工筛选(MERR-Fine)策略(胜率分别达86%和59%)。
模型性能对比
多模态输入分析
五、结论与价值
1. 科学意义:
- 首次实现大规模描述性情感数据集的半自动构建,突破人工标注成本限制;
- 验证预融合操作对多模态情感任务的有效性,为MLLMs的跨模态设计提供新思路。
六、研究亮点
1. 规模与质量平衡:MER-Caption通过模型自动化与人类先验的结合,实现115K样本量级下保持高质量标注。
2. 模态融合创新:AffectGPT将跨模态交互从LLM剥离,通过预融合强化低层级特征整合。
3. 评测基准适配性:MER-UniBench首次针对MLLMs自由输出设计量化指标,解决传统分类指标不适用问题。
七、其他发现
- 音频编码器选择对性能影响较小(ImageBind vs. HuBERT-L差异%),而视觉编码器中CLIP ViT-L表现最优;
- LoRA微调LLM时,rank=16即可平衡效果与计算成本,进一步增加参数无显著增益。
该研究通过数据、模型、评测三位一体的创新,为复杂情感建模开辟了新路径,其方法论对多模态学习领域具有普适参考价值。