分享自:

多模态情感推理中的情感冲突基准与桥接

期刊:Proceedings of the 33rd ACM International Conference on MultimediaDOI:10.1145/3746027.3754856

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多模态情感推理中的情感冲突基准测试与桥接方法研究

1. 作者与发表信息

本研究由以下团队完成:
- Zhiyuan Han(中国科学技术大学)
- Beier Zhu†(新加坡南洋理工大学)
- Yanlong XuPeipei SongXun Yang†(中国科学技术大学)
论文发表于ACM国际多媒体会议(MM ’25),会议于2025年10月27日至31日在爱尔兰都柏林举行,标题为《Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning》。

2. 学术背景

研究领域:本研究属于多模态情感计算(Multimodal Emotion Computing)领域,聚焦于多模态大语言模型(Multimodal Large Language Models, MLLMs)在情感推理任务中的局限性。
研究动机:现有MLLMs在多模态情感推理中表现优异,但普遍忽视情感冲突(emotion conflicts)场景,即不同模态(如视觉与听觉)的情感线索不一致的情况。例如,人类可能因社交规范或情绪调节表现出矛盾的情感表达(如面部悲伤但语调平静)。然而,现有基准数据集(如Omni-Emotion)往往主动剔除这类冲突样本,导致模型在实际应用中的鲁棒性不足。
研究目标
1. 构建首个针对情感冲突场景的基准数据集CA-MER(Conflict-Aware Multimodal Emotion Reasoning);
2. 揭示现有MLLMs在情感冲突中的模态偏差(如过度依赖音频信号);
3. 提出新型框架MoSEAR(Modality-Specific Experts and Attention Reallocation),以平衡多模态融合并提升推理性能。

3. 研究流程与方法

(1) CA-MER数据集的构建

流程分三阶段
1. 单模态与多模态情感标注
- 使用GPT-4o分别分析视频(视觉)和音频(听觉)的情感特征,生成模态特定的情感描述,并归类至9类情感标签(如愤怒、快乐、悲伤等)。
- 采用Emotion-LLaMA(当前最优情感MLLM)基于多模态输入生成综合情感标签。所有标签经三名标注者人工验证。
2. 多数投票与子集划分
- 根据视觉、音频和多模态标签的一致性,将样本分为三组:
- Video-Aligned:视觉与多模态标签一致,音频冲突(500样本);
- Audio-Aligned:音频与多模态标签一致,视觉冲突(500样本);
- Consistent:所有模态一致(500样本)。
3. 多模态情感推理生成
- 将视觉/音频情感描述与最终标签输入GPT-4o,生成带解释的推理文本(见图2b示例)。

创新点
- 首次系统化定义情感冲突场景,并通过多模态标签对齐构建评估基准。
- 引入人类标注验证与GPT-4o生成的混合标注策略,提升数据质量。

(2) 模态偏差分析与关键发现

实验设计
- 在CA-MER上测试主流MLLMs(如Emotion-LLaMA、Vita1.5),发现其在Video-Aligned子集上性能显著低于Audio-Aligned(如Emotion-LLaMA差距达12%)。
注意力机制分析
- 提出单模态注意力比例(Unimodal Attention Proportion, UAP),量化模型对视觉/音频令牌的关注度。
- 发现中间层对音频令牌的注意力权重(UAPₐ)远高于视觉令牌(UAPᵥ),如图3a所示。
根本原因
- 视觉与音频令牌数量极不平衡(如Emotion-LLaMA中视频令牌256个 vs. 音频令牌1个),导致模型倾向于依赖信息密度更高的音频模态。

(3) MoSEAR框架设计

核心模块
1. 模态特定专家(MoSE)
- 包含三个参数高效的LoRA(Low-Rank Adaptation)专家:
- 视觉专家(Eᵥ):增强视觉特征;
- 非视觉专家(Eₙ):处理音频与文本;
- 全局专家(Eₒ):融合所有模态。
- 引入正则化路由机制(超参数ε=0.1),动态调整各专家贡献,防止单一模态主导。
2. 注意力重分配(AR)
- 动态定位偏差层:通过层/头级注意力比率(𝑐(𝜔)与𝑐ₕ(𝜔))识别过度依赖音频的注意力头。
- 结构化权重调整:按比例减少音频令牌权重,同时增加视觉令牌权重(公式12-14),保持总注意力分布不变。

技术优势
- AR避免传统方法(如PAI)的模态间性能权衡,在冲突与一致场景中均提升效果。

4. 主要结果

(1) CA-MER基准测试
  • MoSEAR在Video-Aligned子集上准确率提升6.79%(Emotion-LLaMA 47.66% → MoSEAR 58.42%),缩小与Audio-Aligned的性能差距至6%(表1)。
  • 在Consistent子集上,MoSEAR仍提升5.25%,证明其泛化能力。
(2) 跨数据集验证
  • EMER(解释性情感推理):MoSEAR以60.58%准确率刷新SOTA(表2)。
  • MER2023(情感识别):F1分数达0.9027,超越前最优模型9.4%(表3)。
(3) 消融实验
  • MoSE设计验证:共享降秩矩阵的模态特定专家比对称LoRA参数更高效(表6)。
  • AR有效性:相比PAI,AR在Video-Aligned子集提升2.72%,且不损害Audio-Aligned性能(表7)。

5. 结论与价值

科学意义
- 首次系统揭示MLLMs在情感冲突中的音频偏差,并提出令牌数量不平衡是关键因素。
- CA-MER填补了多模态情感推理领域的数据空白,推动更鲁棒的模型研发。
应用价值
- MoSEAR可部署于心理咨询、人机交互等场景,提升对复杂情感表达的解析能力。

6. 研究亮点

  1. 创新数据集:CA-MER是首个针对情感冲突的基准,涵盖对齐与冲突场景。
  2. 方法论突破:MoSEAR通过参数高效模块与动态注意力调整,实现无性能妥协的模态平衡。
  3. 跨任务通用性:在情感推理与识别任务中均达到SOTA,验证框架普适性。

7. 其他贡献

  • 开源CA-MER数据集与代码,促进社区后续研究。
  • 提出基于GPT-4o的多模态标注流程,为高质量数据构建提供范式。

以上报告完整覆盖了研究的背景、方法、结果与价值,重点突出了技术创新与实证贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com