多模态大语言模型图像情感评估新基准:EEMO-Bench深度解析
一、研究团队与发表信息
本研究的核心团队来自上海交通大学(Shanghai Jiao Tong University)和华东师范大学(East China Normal University),第一作者为Lancheng Gao,通讯作者为Xiongkuo Min†∗。合作者包括Ziheng Jia、Yunhao Zeng、Wei Sun等学者,部分成员来自英国卡迪夫大学(Cardiff University)。研究发表于2025年10月的ACM国际多媒体会议(MM ‘25),标题为《EEMO-Bench: A Benchmark for Multi-Modal Large Language Models on Image Evoked Emotion Assessment》。
二、学术背景与研究目标
科学领域:本研究属于多模态人工智能与情感计算的交叉领域,聚焦于多模态大语言模型(MLLMs, Multi-Modal Large Language Models)的图像情感理解能力评估。
研究动机:当前MLLMs在图像情感分析(Image Emotion Assessment, IEA)任务中存在两大瓶颈:
1. 粗粒度评估:现有基准多关注单一主导情感(如积极/消极),忽略情感多样性(如强度、混合情感);
2. 维度缺失:缺乏对情感属性(如唤醒度arousal、支配度dominance)的系统性评测,仅依赖效价(valence)维度。
研究目标:提出首个综合性基准EEMO-Bench,通过细粒度任务设计,评估MLLMs对图像诱发情感(evoked emotions)的感知与理解能力,推动机器共情(empathy)技术的发展。
三、研究方法与流程
1. 数据集构建
- 数据来源:从Flickr收集1,960张图像,覆盖6类内容(自然景观、人物、静物等),每类280张,确保多样性。
- 情感标注:
- 情感类别:基于Ekman基本情绪理论(Ekman’s basic emotions)扩展为7类(快乐、愤怒、厌恶、悲伤、恐惧、惊讶、中性)。
- VAD模型:采用效价-唤醒度-支配度(Valence-Arousal-Dominance, VAD)框架,通过9点自评量表(Self-Assessment Manikin, SAM)量化情感属性。
- 标注策略:15名参与者手动标注每张图像的前三位情感排序及VAD分数,最终保留29,400条标注样本,经统计筛选确保一致性。
2. 任务设计
研究设计四大评估任务,覆盖单图与图像对分析:
- 感知任务(Perception):
- 问题类型:二选一(Yes-or-No)与开放式(What-How)问题,平衡回答偏差。
- 分析维度:情感类别、VAD属性(如“图像是否引发高唤醒情绪?”)。
- 图像对扩展:比较相似/差异情感属性(如“哪张图支配感更强?”)。
- 排序任务(Ranking):要求模型对图像诱发的情感按强度排序,评估其识别情感层次的能力。
- 描述任务(Description):通过开放式问题(如“图像中哪些元素引发您的情感反应?”)测试模型的细粒度描述与归因分析能力。
- 评估任务(Assessment):量化预测VAD分数,采用基于形容词的评分方案(如“高/中/低”唤醒度),通过Softmax加权计算最终得分。
3. 模型评估
- 测试对象:19个主流MLLMs,包括5个专有模型(如GPT-4o、Gemini-1.5-Pro)和14个开源模型(如Qwen2.5-VL-72B、LLaVA-OneVision-72B)。
- 评估方法:采用5轮Deepseek辅助评估策略,对不一致结果进行人工复核。
四、主要结果与发现
1. 整体性能
- 最佳模型:Qwen2.5-VL-72B在综合任务中表现最优(总分68.78%),但所有模型与人类表现仍存显著差距。
- 任务差异:
- 感知任务:GPT-4o以65.31%领先,开源模型(如LLaVA-OneVision-72B)接近专有模型水平。
- 排序任务:Qwen2.5-VL-72B准确率67.84%,但情感强度排序仍常出错。
- VAD评估:效价(valence)预测最佳(平均SRCC 0.77),支配度(dominance)最差(部分模型出现负相关)。
2. 关键发现
- 图像对分析劣势:模型在单图任务中平均比图像对任务高3.7%,表明其联合分析能力不足。
- 属性理解不平衡:
- 效价与唤醒度:模型能较好识别色彩、物体等显性特征(如“鲜艳色调关联高唤醒”)。
- 支配度:因需结合主观体验(如“压迫感”),模型表现最弱。
- 开源模型潜力:大规模开源模型(如Qwen2.5-VL-72B)在多项任务中超越专有模型(除GPT-4o)。
五、研究结论与价值
科学价值:
1. 理论贡献:首次将情感排序策略与VAD模型结合,弥补传统IEA基准的维度缺失问题。
2. 方法创新:提出四维任务框架,覆盖从感知到量化的全流程评估,推动MLLMs情感理解的可解释性研究。
应用价值:
- 人机交互:提升机器对用户情感的响应精准度(如心理辅导机器人)。
- 广告推荐:优化基于情感共鸣的内容生成策略。
- 公共舆情:增强对社交媒体图像的情感倾向监测能力。
六、研究亮点
1. 全面性:首个系统评估MLLMs图像诱发情感的基准,包含1,960张图像与6,773个问答对。
2. 细粒度设计:通过情感排序、VAD属性、图像对比较,实现多维度评测。
3. 开源资源:公开数据集与代码(GitHub: workerred/eemo-bench),促进后续研究。
局限与展望:模型在支配度理解、情感混合场景中表现不佳,未来需结合认知心理学理论进一步优化。