AffectGPT：一种新的多模态大语言模型情感理解数据集、模型与基准

分享自：
AffectGPT：一种新的多模态大语言模型情感理解数据集、模型与基准

期刊:Proceedings of the 41st International Conference on Machine Learning
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
AffectGPT：多模态大语言模型在情感理解领域的新突破
一、研究团队与发表信息
 本研究由来自中国科学院自动化研究所、University of Oulu、清华大学等机构的Zheng Lian、Haoyu Chen、Jianhua Tao等学者共同完成，发表于2025年国际机器学习会议（ICML 2025），论文标题为《AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models》。
二、学术背景与研究目标
 情感计算是人工智能领域的重要研究方向，传统的情感识别方法（Multimodal Emotion Recognition, MER）依赖预定义的离散情感分类（如Ekman的六类基本情绪），难以捕捉真实场景中复杂、共存的情绪状态。随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的发展，情感理解正从判别式任务转向生成式框架，但面临两大挑战：
 1. 数据瓶颈：现有标注数据集规模有限，且缺乏细粒度、描述性的情感标注；
 2. 模型局限：现有MLLMs将跨模态交互完全交给语言模型处理，未充分考虑情感任务的多模态特性。
为此，本研究提出三大创新：
 - 构建目前最大规模的描述性情感数据集MER-Caption；
 - 开发新型模型AffectGPT，通过预融合（pre-fusion）操作增强多模态整合；
 - 建立统一评测基准MER-UniBench，适配MLLMs的自由文本输出风格。
三、研究流程与方法
 1. 数据集构建（MER-Caption）
 - 数据来源：基于MER2024未标注部分，包含115,595个粗标注样本和31,327个精标注样本，覆盖2,932种细粒度情感类别。
 - 标注策略：采用“模型主导-人工辅助”（model-led human-assisted）的半自动标注流程：
 - 描述生成：通过实验筛选最优模型组合——Salmonn（音频LLM）提取音频线索、Chat-UniVi（视频LLM）提取视觉线索，GPT-3.5整合多模态信息生成描述。
 - 样本过滤：采用两级过滤（低层：剔除音视频不匹配及异常长度描述；高层：基于多模态分类器投票验证标签一致性）。
 - 创新点：通过人类先验指导模型选择与过滤，平衡标注质量与规模。
模型设计（AffectGPT）
架构改进：在主流MLLMs三组件（模态编码器、连接器、LLM生成器）基础上，引入预融合模块，将跨模态交互移至LLM外部：
 Q-Former预融合：通过可学习查询令牌压缩多模态特征，保留时序信息；
 
注意力预融合：直接压缩时序特征后计算模态间注意力权重。
 
训练细节：冻结视觉编码器（CLIP ViT-L）和音频编码器（HuBERT-L），仅微调LoRA模块（rank=16）、投影层及预融合分支。
评测基准（MER-UniBench）
任务设计：覆盖三类典型MER任务——细粒度情感识别（OV-MERD+数据集）、基本情感识别（MER2023等4个数据集）、情感极性分析（CMU-MOSI等4个数据集）。
 
评估指标：针对MLLMs自由文本输出特性，创新提出：
 集合级指标：通过三级情感词分组（词形归一化、同义词映射、情感轮层级映射）解决标签多样性问题；
 
命中率（Hit Rate）：用于基本情感识别，判断真实标签是否存在于预测标签集合中。
四、主要研究结果
 1. 数据集性能验证
 - MER-Caption在MER-UniBench上平均得分达74.77，显著优于其他描述性数据集（如MAFW：58.16；MERR-Fine：64.55）。
 - 用户研究表明，其标注质量优于纯模型标注（MERR-Coarse）和人工筛选（MERR-Fine）策略（胜率分别达86%和59%）。
模型性能对比
AffectGPT在全部任务中领先现有MLLMs，平均性能提升9%以上。例如：
 细粒度情感识别：Fs分数61.65（对比Chat-UniVi的48.00）；
 
基本情感识别：命中率78.54%（对比Salmonn的55.53%）。
 
消融实验证明预融合操作是关键：Q-Former和注意力预融合分别带来1.21%和1.82%的性能提升。
多模态输入分析
音频+视频+文本三模态输入效果最优（74.77分），但单独使用面部图像（74.60分）与全帧视频（73.39分）差异不大，表明当前MER数据集中于人物表情分析。
五、结论与价值
 1. 科学意义：
 - 首次实现大规模描述性情感数据集的半自动构建，突破人工标注成本限制；
 - 验证预融合操作对多模态情感任务的有效性，为MLLMs的跨模态设计提供新思路。
应用价值：
 推动教育、心理咨询、人机交互等领域的情感AI发展；
 
公开数据集与代码（GitHub仓库）助力后续研究。
六、研究亮点
 1. 规模与质量平衡：MER-Caption通过模型自动化与人类先验的结合，实现115K样本量级下保持高质量标注。
 2. 模态融合创新：AffectGPT将跨模态交互从LLM剥离，通过预融合强化低层级特征整合。
 3. 评测基准适配性：MER-UniBench首次针对MLLMs自由输出设计量化指标，解决传统分类指标不适用问题。
七、其他发现
 - 音频编码器选择对性能影响较小（ImageBind vs. HuBERT-L差异%），而视觉编码器中CLIP ViT-L表现最优；
 - LoRA微调LLM时，rank=16即可平衡效果与计算成本，进一步增加参数无显著增益。
该研究通过数据、模型、评测三位一体的创新，为复杂情感建模开辟了新路径，其方法论对多模态学习领域具有普适参考价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问