本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
主要作者及机构
本研究由Wei-Bang Jiang、Xuan-Hao Liu、Wei-Long Zheng和Bao-Liang Lu共同完成,所有作者均来自上海交通大学(Shanghai Jiao Tong University)。该研究于2023年10月29日至11月3日在第31届ACM国际多媒体会议(ACM International Conference on Multimedia, MM ‘23)上发表。
学术背景
情感识别(emotion recognition)是人机交互(HCI)中的关键组成部分,旨在使机器能够识别、理解并响应人类的情感。近年来,深度学习的发展凸显了高质量情感数据集的重要性,以准确解码人类情感。然而,现有的情感数据集在情感类型多样性和记录时长方面存在局限性,且情感是复杂且动态的生理过程,其强度和状态随时间变化。因此,本研究旨在开发一种新型多模态情感数据集,结合脑电图(EEG)和眼动信号,系统探索人类情感。此外,研究提出了一种新型多模态自适应情感变换器(Multimodal Adaptive Emotion Transformer, MAET),能够灵活处理单模态和多模态输入,并通过对抗训练(adversarial training)减少个体差异,增强领域泛化能力。
研究流程
1. 数据集构建
- 刺激材料选择:研究选取了80个视频片段,用于诱发七种基本情感(快乐、悲伤、恐惧、厌恶、惊讶、愤怒和中性)。视频片段通过20名志愿者的评分筛选,确保其情感诱发效果。
- 实验设计:20名受试者(10男10女,年龄19-26岁)参与实验,所有受试者均通过艾森克人格问卷(EPQ)筛选,以确保其具备较高的外向性(extraversion)特征。实验分为四个会话,每个会话包含20个视频片段,受试者在观看视频后对情感强度进行自我评估。
- 数据采集:使用62通道脑电图帽和Tobii Pro Fusion眼动仪同步采集EEG和眼动信号。EEG信号采样率为1000 Hz,眼动信号采样率为250 Hz。
特征提取
模型开发
实验与评估
主要结果
1. 单模态情感识别
- EEG信号:MAET在EEG信号上的分类准确率为58.11%,显著优于其他基线方法。其中,惊讶和恐惧情感的识别准确率较高,而快乐和中性情感容易混淆。
- 眼动信号:MAET在眼动信号上的分类准确率为50.31%,其中中性和恐惧情感的识别效果较好,而快乐和厌恶情感的识别准确率较低。
多模态情感识别
跨受试者情感识别
连续标签分析
结论
本研究开发了一种新型多模态情感数据集,结合EEG和眼动信号,并引入连续标签以捕捉情感强度的动态变化。提出的MAET模型能够灵活处理单模态和多模态输入,并通过对抗训练减少个体差异,显著提升了情感识别的性能。实验结果表明,EEG和眼动信号在情感识别中具有互补特性,多模态输入能够显著提高分类准确率。此外,连续标签在筛选高诱发数据方面表现出重要价值。
研究亮点
1. 新型数据集:本研究开发了一个包含七种基本情感的多模态数据集,记录时长超过14,000秒,显著优于现有数据集。
2. MAET模型:提出的MAET模型能够灵活处理单模态和多模态输入,并通过情感提示调优和对抗训练提升性能。
3. 连续标签分析:研究首次系统分析了连续标签在情感识别中的作用,证明了其在筛选高质量数据方面的有效性。
其他价值
本研究为未来情感识别研究提供了重要的数据集和基线模型,推动了多模态情感识别领域的发展。此外,研究结果对情感计算、人机交互和心理健康监测等领域具有潜在的应用价值。
以上是对该研究的全面报告,涵盖了研究背景、流程、结果、结论及其科学价值。