基于连续标签的多模态自适应情感变换器及其在新数据集上的应用

分享自：
基于连续标签的多模态自适应情感变换器及其在新数据集上的应用

人工智能
神经科学与心理学
期刊:Proceedings of the 31st ACM International Conference on MultimediaDOI:10.1145/3581783.3613797
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
主要作者及机构
 本研究由Wei-Bang Jiang、Xuan-Hao Liu、Wei-Long Zheng和Bao-Liang Lu共同完成，所有作者均来自上海交通大学（Shanghai Jiao Tong University）。该研究于2023年10月29日至11月3日在第31届ACM国际多媒体会议（ACM International Conference on Multimedia, MM ‘23）上发表。
学术背景
 情感识别（emotion recognition）是人机交互（HCI）中的关键组成部分，旨在使机器能够识别、理解并响应人类的情感。近年来，深度学习的发展凸显了高质量情感数据集的重要性，以准确解码人类情感。然而，现有的情感数据集在情感类型多样性和记录时长方面存在局限性，且情感是复杂且动态的生理过程，其强度和状态随时间变化。因此，本研究旨在开发一种新型多模态情感数据集，结合脑电图（EEG）和眼动信号，系统探索人类情感。此外，研究提出了一种新型多模态自适应情感变换器（Multimodal Adaptive Emotion Transformer, MAET），能够灵活处理单模态和多模态输入，并通过对抗训练（adversarial training）减少个体差异，增强领域泛化能力。
研究流程
 1. 数据集构建
 - 刺激材料选择：研究选取了80个视频片段，用于诱发七种基本情感（快乐、悲伤、恐惧、厌恶、惊讶、愤怒和中性）。视频片段通过20名志愿者的评分筛选，确保其情感诱发效果。
 - 实验设计：20名受试者（10男10女，年龄19-26岁）参与实验，所有受试者均通过艾森克人格问卷（EPQ）筛选，以确保其具备较高的外向性（extraversion）特征。实验分为四个会话，每个会话包含20个视频片段，受试者在观看视频后对情感强度进行自我评估。
 - 数据采集：使用62通道脑电图帽和Tobii Pro Fusion眼动仪同步采集EEG和眼动信号。EEG信号采样率为1000 Hz，眼动信号采样率为250 Hz。
特征提取
EEG特征：对原始EEG信号进行预处理，包括插值坏通道、带通滤波（0.1-70 Hz）和降采样至200 Hz。通过短时傅里叶变换（STFT）计算五个频段（delta、theta、alpha、beta、gamma）的微分熵（differential entropy, DE）特征。
 
眼动特征：提取瞳孔直径、注视点等33个眼动特征，并通过主成分分析（PCA）消除光照对瞳孔直径的影响。
 
模型开发
MAET模型：MAET由多视图嵌入模块（multi-view embedding module）、自适应变换器（adaptive transformer）、混合变换器（mixture transformer）和多个分类器组成。模型首先通过EEG和眼动特征进行训练，学习处理多模态输入的能力，随后通过情感提示调优（emotional prompt tuning）适应单模态输入。
 
对抗训练：为减少个体差异，研究采用对抗训练方法，通过梯度反转层（gradient reverse layer, GRL）使模型学习领域不变表示。
 
实验与评估
单模态与多模态情感识别：研究在受试者依赖（subject-dependent）和跨受试者（cross-subject）条件下评估MAET的性能，并与KNN、HCNN、RGN等基线方法进行比较。
 
连续标签分析：研究通过过滤高诱发数据（high-induced data）分析连续标签对情感识别性能的影响。
 
主要结果
 1. 单模态情感识别
 - EEG信号：MAET在EEG信号上的分类准确率为58.11%，显著优于其他基线方法。其中，惊讶和恐惧情感的识别准确率较高，而快乐和中性情感容易混淆。
 - 眼动信号：MAET在眼动信号上的分类准确率为50.31%，其中中性和恐惧情感的识别效果较好，而快乐和厌恶情感的识别准确率较低。
多模态情感识别
MAET在多模态输入下的分类准确率为71.28%，显著优于单模态输入和其他多模态方法。EEG和眼动信号在情感识别中表现出互补特性，例如EEG在识别快乐和惊讶情感上表现更好，而眼动信号在识别中性和恐惧情感上更具优势。
 
跨受试者情感识别
在跨受试者条件下，MAET的分类准确率为40.90%，表明其在处理新受试者数据时具有一定的鲁棒性。
 
连续标签分析
过滤高诱发数据后，所有方法的分类准确率均显著提高，MAET的准确率提升至58.24%。这表明连续标签在筛选高质量情感数据方面具有重要作用。
 
结论
 本研究开发了一种新型多模态情感数据集，结合EEG和眼动信号，并引入连续标签以捕捉情感强度的动态变化。提出的MAET模型能够灵活处理单模态和多模态输入，并通过对抗训练减少个体差异，显著提升了情感识别的性能。实验结果表明，EEG和眼动信号在情感识别中具有互补特性，多模态输入能够显著提高分类准确率。此外，连续标签在筛选高诱发数据方面表现出重要价值。
研究亮点
 1. 新型数据集：本研究开发了一个包含七种基本情感的多模态数据集，记录时长超过14,000秒，显著优于现有数据集。
 2. MAET模型：提出的MAET模型能够灵活处理单模态和多模态输入，并通过情感提示调优和对抗训练提升性能。
 3. 连续标签分析：研究首次系统分析了连续标签在情感识别中的作用，证明了其在筛选高质量数据方面的有效性。
其他价值
 本研究为未来情感识别研究提供了重要的数据集和基线模型，推动了多模态情感识别领域的发展。此外，研究结果对情感计算、人机交互和心理健康监测等领域具有潜在的应用价值。
以上是对该研究的全面报告，涵盖了研究背景、流程、结果、结论及其科学价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问