这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由以下团队完成:
- Zhiyuan Han(中国科学技术大学)
- Beier Zhu†(新加坡南洋理工大学)
- Yanlong Xu、Peipei Song、Xun Yang†(中国科学技术大学)
论文发表于ACM国际多媒体会议(MM ’25),会议于2025年10月27日至31日在爱尔兰都柏林举行,标题为《Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning》。
研究领域:本研究属于多模态情感计算(Multimodal Emotion Computing)领域,聚焦于多模态大语言模型(Multimodal Large Language Models, MLLMs)在情感推理任务中的局限性。
研究动机:现有MLLMs在多模态情感推理中表现优异,但普遍忽视情感冲突(emotion conflicts)场景,即不同模态(如视觉与听觉)的情感线索不一致的情况。例如,人类可能因社交规范或情绪调节表现出矛盾的情感表达(如面部悲伤但语调平静)。然而,现有基准数据集(如Omni-Emotion)往往主动剔除这类冲突样本,导致模型在实际应用中的鲁棒性不足。
研究目标:
1. 构建首个针对情感冲突场景的基准数据集CA-MER(Conflict-Aware Multimodal Emotion Reasoning);
2. 揭示现有MLLMs在情感冲突中的模态偏差(如过度依赖音频信号);
3. 提出新型框架MoSEAR(Modality-Specific Experts and Attention Reallocation),以平衡多模态融合并提升推理性能。
流程分三阶段:
1. 单模态与多模态情感标注:
- 使用GPT-4o分别分析视频(视觉)和音频(听觉)的情感特征,生成模态特定的情感描述,并归类至9类情感标签(如愤怒、快乐、悲伤等)。
- 采用Emotion-LLaMA(当前最优情感MLLM)基于多模态输入生成综合情感标签。所有标签经三名标注者人工验证。
2. 多数投票与子集划分:
- 根据视觉、音频和多模态标签的一致性,将样本分为三组:
- Video-Aligned:视觉与多模态标签一致,音频冲突(500样本);
- Audio-Aligned:音频与多模态标签一致,视觉冲突(500样本);
- Consistent:所有模态一致(500样本)。
3. 多模态情感推理生成:
- 将视觉/音频情感描述与最终标签输入GPT-4o,生成带解释的推理文本(见图2b示例)。
创新点:
- 首次系统化定义情感冲突场景,并通过多模态标签对齐构建评估基准。
- 引入人类标注验证与GPT-4o生成的混合标注策略,提升数据质量。
实验设计:
- 在CA-MER上测试主流MLLMs(如Emotion-LLaMA、Vita1.5),发现其在Video-Aligned子集上性能显著低于Audio-Aligned(如Emotion-LLaMA差距达12%)。
注意力机制分析:
- 提出单模态注意力比例(Unimodal Attention Proportion, UAP),量化模型对视觉/音频令牌的关注度。
- 发现中间层对音频令牌的注意力权重(UAPₐ)远高于视觉令牌(UAPᵥ),如图3a所示。
根本原因:
- 视觉与音频令牌数量极不平衡(如Emotion-LLaMA中视频令牌256个 vs. 音频令牌1个),导致模型倾向于依赖信息密度更高的音频模态。
核心模块:
1. 模态特定专家(MoSE):
- 包含三个参数高效的LoRA(Low-Rank Adaptation)专家:
- 视觉专家(Eᵥ):增强视觉特征;
- 非视觉专家(Eₙ):处理音频与文本;
- 全局专家(Eₒ):融合所有模态。
- 引入正则化路由机制(超参数ε=0.1),动态调整各专家贡献,防止单一模态主导。
2. 注意力重分配(AR):
- 动态定位偏差层:通过层/头级注意力比率(𝑐(𝜔)与𝑐ₕ(𝜔))识别过度依赖音频的注意力头。
- 结构化权重调整:按比例减少音频令牌权重,同时增加视觉令牌权重(公式12-14),保持总注意力分布不变。
技术优势:
- AR避免传统方法(如PAI)的模态间性能权衡,在冲突与一致场景中均提升效果。
科学意义:
- 首次系统揭示MLLMs在情感冲突中的音频偏差,并提出令牌数量不平衡是关键因素。
- CA-MER填补了多模态情感推理领域的数据空白,推动更鲁棒的模型研发。
应用价值:
- MoSEAR可部署于心理咨询、人机交互等场景,提升对复杂情感表达的解析能力。
以上报告完整覆盖了研究的背景、方法、结果与价值,重点突出了技术创新与实证贡献。