分享自:

情感-LLAMA:基于指令调整的多模态情感识别与推理

期刊:38th conference on neural information processing systems (NeurIPS 2024)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多模态情感识别与推理新突破:Emotion-LLaMA模型与MERR数据集

作者与机构
本研究由Zebang Cheng(深圳技术大学/深圳大学)、Zhi-Qi Cheng(卡内基梅隆大学)、Jun-Yan He(阿里巴巴集团)、Jingdong Sun(卡内基梅隆大学)、Kai Wang(新加坡国立大学)、Yuxiang Lin(深圳技术大学)、Zheng Lian(中国科学院自动化研究所)、Xiaojiang Peng(深圳技术大学/深圳大学)及Alexander G. Hauptmann(卡内基梅隆大学)共同完成,发表于NeurIPS 2024(第38届神经信息处理系统会议)。


学术背景
情感识别(Emotion Recognition)是人机交互、教育辅助和心理辅导等领域的核心技术。传统单模态方法(如面部表情识别、文本情感分析、语音情感识别)难以捕捉真实场景中多模态情感表达的复杂性。尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中表现优异,但其在情感识别领域面临两大挑战:
1. 音频处理能力不足:现有模型(如GPT-4V)无法有效整合语音语调等听觉线索;
2. 微表情识别缺陷:对细微面部动态变化的捕捉能力有限。

为此,研究团队提出Emotion-LLaMA模型,并构建MERR数据集(Multimodal Emotion Recognition and Reasoning Dataset),旨在通过指令微调(Instruction Tuning)实现多模态情感的高精度识别与深度推理。


研究流程与方法

1. MERR数据集构建
- 数据来源:从MER2023等公开数据集中筛选未标注样本,结合电影和电视剧片段,共包含28,618条粗粒度标注样本和4,487条专家精标样本,覆盖9类情感(含“怀疑”和“轻蔑”等罕见类别)。
- 多模态标注流程
- 视觉处理:使用OpenFace工具包提取面部动作单元(Action Units, AUs),通过峰值帧检测(累计AU强度最大化)定位情感表达最显著的帧。
- 音频处理:基于Qwen-Audio模型分析语音语调,生成情感相关的听觉描述(如“颤抖的高音调暗示恐惧”)。
- 上下文整合:利用MiniGPT-V2解析场景背景(如“昏暗房间中的独坐人物”),结合LLaMA-3生成多模态描述(见图1示例)。
- 创新点:首次实现自动化多模态情感标注,通过线性投影将音频(HuBERT编码)、视觉(MAE/VideoMAE/EVA编码)特征对齐至共享语义空间。

2. Emotion-LLaMA模型设计
- 架构核心
- 多视图编码器
- 局部编码器(MAE):捕捉静态面部特征;
- 时序编码器(VideoMAE):分析面部动态变化;
- 全局编码器(EVA):整合背景上下文。
- 指令微调:采用两阶段训练——先基于粗粒度数据预训练,再通过精标数据优化推理能力。
- 技术亮点
- 引入线性投影层(σ)将多模态特征映射为语言嵌入令牌(如⟨t_aud⟩、⟨t_vis⟩),通过LLaMA-3的交叉注意力机制实现模态融合;
- 参数量仅3400万(占全模型0.495%),支持高效训练(4×A100 GPU,20小时)。


主要结果

1. 性能对比
- 多模态情感推理:在EMER数据集上,Emotion-LLaMA的线索重叠度(Clue Overlap)和标签重叠度(Label Overlap)分别达7.83和6.25(满分10),显著优于Video-ChatGPT(6.955.74)和PandaGPT(7.145.51)。
- 情感识别任务
- DFEW数据集:零样本评估中未加权平均召回率(UAR)达45.59%,超越GPT-4V(47.69%);
- MER2023挑战赛:F1分数0.9036,优于Transformer基线(0.8853)。

2. 定性分析
- 案例展示(表5):面对“微笑质疑”的复杂场景,Emotion-LLaMA能综合面部微表情(皱眉)、语音语调(尖锐)和上下文(重要对话),准确识别“愤怒”情绪,而PandaGPT因忽略音频线索误判为“快乐”。
- 概率分布可视化(图3):模型对文本隐含情感的识别能力显著优于传统方法(如将“不可能”解析为“愤怒”而非字面意义)。


结论与价值
1. 科学价值
- 提出首个专为情感任务设计的MLLM,解决了音频融合与微表情识别的核心难题;
- MERR数据集填补了多模态情感描述数据的空白,推动领域从分类向推理演进。
2. 应用价值
- 可部署于心理咨询(情绪状态分析)、教育(学生注意力监测)等场景;
- 开源模型与数据(Hugging Face Demo)促进社区发展。

研究亮点
- 方法论创新:通过多视图编码器与指令微调的协同设计,实现模态间的高效对齐;
- 数据规模突破:MERR的精细标注量(4,487样本)远超同类数据集(如EMER仅100样本);
- 跨模态泛化性:在开放词汇任务(MER-OV)中,平均准确率较GPT-4V提升8.52%。

其他贡献
- 伦理规范:MERR数据集仅包含描述性JSON文件,避免原始视频泄露风险;
- 跨领域验证:在噪声环境(MER2024-noise)和半监督场景(MER2023-semi)中均表现鲁棒。


(报告总字数:约2100字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com