分享自:

基于连续标签的多模态自适应情感变换器及其在新数据集上的应用

期刊:Proceedings of the 31st ACM International Conference on MultimediaDOI:10.1145/3581783.3613797

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


主要作者及机构
本研究由Wei-Bang Jiang、Xuan-Hao Liu、Wei-Long Zheng和Bao-Liang Lu共同完成,所有作者均来自上海交通大学(Shanghai Jiao Tong University)。该研究于2023年10月29日至11月3日在第31届ACM国际多媒体会议(ACM International Conference on Multimedia, MM ‘23)上发表。

学术背景
情感识别(emotion recognition)是人机交互(HCI)中的关键组成部分,旨在使机器能够识别、理解并响应人类的情感。近年来,深度学习的发展凸显了高质量情感数据集的重要性,以准确解码人类情感。然而,现有的情感数据集在情感类型多样性和记录时长方面存在局限性,且情感是复杂且动态的生理过程,其强度和状态随时间变化。因此,本研究旨在开发一种新型多模态情感数据集,结合脑电图(EEG)和眼动信号,系统探索人类情感。此外,研究提出了一种新型多模态自适应情感变换器(Multimodal Adaptive Emotion Transformer, MAET),能够灵活处理单模态和多模态输入,并通过对抗训练(adversarial training)减少个体差异,增强领域泛化能力。

研究流程
1. 数据集构建
- 刺激材料选择:研究选取了80个视频片段,用于诱发七种基本情感(快乐、悲伤、恐惧、厌恶、惊讶、愤怒和中性)。视频片段通过20名志愿者的评分筛选,确保其情感诱发效果。
- 实验设计:20名受试者(10男10女,年龄19-26岁)参与实验,所有受试者均通过艾森克人格问卷(EPQ)筛选,以确保其具备较高的外向性(extraversion)特征。实验分为四个会话,每个会话包含20个视频片段,受试者在观看视频后对情感强度进行自我评估。
- 数据采集:使用62通道脑电图帽和Tobii Pro Fusion眼动仪同步采集EEG和眼动信号。EEG信号采样率为1000 Hz,眼动信号采样率为250 Hz。

  1. 特征提取

    • EEG特征:对原始EEG信号进行预处理,包括插值坏通道、带通滤波(0.1-70 Hz)和降采样至200 Hz。通过短时傅里叶变换(STFT)计算五个频段(delta、theta、alpha、beta、gamma)的微分熵(differential entropy, DE)特征。
    • 眼动特征:提取瞳孔直径、注视点等33个眼动特征,并通过主成分分析(PCA)消除光照对瞳孔直径的影响。
  2. 模型开发

    • MAET模型:MAET由多视图嵌入模块(multi-view embedding module)、自适应变换器(adaptive transformer)、混合变换器(mixture transformer)和多个分类器组成。模型首先通过EEG和眼动特征进行训练,学习处理多模态输入的能力,随后通过情感提示调优(emotional prompt tuning)适应单模态输入。
    • 对抗训练:为减少个体差异,研究采用对抗训练方法,通过梯度反转层(gradient reverse layer, GRL)使模型学习领域不变表示。
  3. 实验与评估

    • 单模态与多模态情感识别:研究在受试者依赖(subject-dependent)和跨受试者(cross-subject)条件下评估MAET的性能,并与KNN、HCNN、RGN等基线方法进行比较。
    • 连续标签分析:研究通过过滤高诱发数据(high-induced data)分析连续标签对情感识别性能的影响。

主要结果
1. 单模态情感识别
- EEG信号:MAET在EEG信号上的分类准确率为58.11%,显著优于其他基线方法。其中,惊讶和恐惧情感的识别准确率较高,而快乐和中性情感容易混淆。
- 眼动信号:MAET在眼动信号上的分类准确率为50.31%,其中中性和恐惧情感的识别效果较好,而快乐和厌恶情感的识别准确率较低。

  1. 多模态情感识别

    • MAET在多模态输入下的分类准确率为71.28%,显著优于单模态输入和其他多模态方法。EEG和眼动信号在情感识别中表现出互补特性,例如EEG在识别快乐和惊讶情感上表现更好,而眼动信号在识别中性和恐惧情感上更具优势。
  2. 跨受试者情感识别

    • 在跨受试者条件下,MAET的分类准确率为40.90%,表明其在处理新受试者数据时具有一定的鲁棒性。
  3. 连续标签分析

    • 过滤高诱发数据后,所有方法的分类准确率均显著提高,MAET的准确率提升至58.24%。这表明连续标签在筛选高质量情感数据方面具有重要作用。

结论
本研究开发了一种新型多模态情感数据集,结合EEG和眼动信号,并引入连续标签以捕捉情感强度的动态变化。提出的MAET模型能够灵活处理单模态和多模态输入,并通过对抗训练减少个体差异,显著提升了情感识别的性能。实验结果表明,EEG和眼动信号在情感识别中具有互补特性,多模态输入能够显著提高分类准确率。此外,连续标签在筛选高诱发数据方面表现出重要价值。

研究亮点
1. 新型数据集:本研究开发了一个包含七种基本情感的多模态数据集,记录时长超过14,000秒,显著优于现有数据集。
2. MAET模型:提出的MAET模型能够灵活处理单模态和多模态输入,并通过情感提示调优和对抗训练提升性能。
3. 连续标签分析:研究首次系统分析了连续标签在情感识别中的作用,证明了其在筛选高质量数据方面的有效性。

其他价值
本研究为未来情感识别研究提供了重要的数据集和基线模型,推动了多模态情感识别领域的发展。此外,研究结果对情感计算、人机交互和心理健康监测等领域具有潜在的应用价值。


以上是对该研究的全面报告,涵盖了研究背景、流程、结果、结论及其科学价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com