分享自:

基于EEG和面部表情的听力受损者情绪识别模型研究

期刊:ieee transactions on instrumentation and measurementDOI:10.1109/TIM.2024.3400341

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

研究作者与机构

本研究的主要作者包括Qingzhou Wu、Mu Zhu、Wenhui Xu、Junchi Wang、Zemin Mao、Qiang Gao和Yu Song(IEEE会员)。他们均来自天津理工大学电气工程与自动化学院,部分作者还隶属于天津理工大学聋人工学院和天津理工大学复杂系统控制理论与应用天津市重点实验室。该研究发表于2024年的IEEE Transactions on Instrumentation and Measurement期刊,具体卷号为73,文章编号为5021111。

学术背景

本研究的科学领域为情感计算(Affective Computing),特别是针对听力受损者的情感识别。当前的情感识别研究主要依赖于单模态的生理或非生理方法,忽视了不同模态之间情感表征的互补性。听力受损者由于听觉通道的缺失,可能在情感认知上存在偏差。因此,本研究提出了一种模态通用与模态特异性学习模型(Modality-General and Modality-Specific, MGMS),旨在通过融合脑电图(Electroencephalogram, EEG)和面部表情来识别听力受损者的四种基本情绪(恐惧、快乐、中性和悲伤)。

研究流程

研究流程主要包括以下几个步骤:

  1. 数据预处理与特征提取

    • EEG信号处理:使用64通道的EEG采集系统(SymAmps2)以1000 Hz的采样频率采集数据,随后降采样至200 Hz。通过带通滤波(1-75 Hz)去除主要频段外的噪声,并使用独立成分分析(ICA)去除伪影。EEG信号被分为五个频段(δ、θ、α、β、γ),并通过短时傅里叶变换(STFT)提取差分熵(Differential Entropy, DE)特征。
    • 面部表情处理:使用dlib模型检测面部区域并标记68个关键点,裁剪面部区域至256×256像素的RGB图像。通过ResNet网络提取纹理特征,并通过面部关键点提取几何特征。
  2. 特征融合与分类模型

    • EEG特征提取:使用长短期记忆网络(Long Short-Term Memory, LSTM)提取通道序列特征,并根据大脑区域重新排列通道序列。
    • 面部表情特征提取:结合ResNet提取的纹理特征和面部关键点提取的几何特征。
    • MGMS模型构建:通过通用-特异性判别器(General-Specific Discriminator)将EEG和面部表情的特征分为模态通用特征模态特异性特征。使用Transformer编码器对四种特征进行分类,并通过交叉熵损失函数优化模型。
  3. 实验与结果分析

    • 单模态情感识别:分别对EEG和面部表情进行情感识别,结果显示EEG的分类准确率(65.12%)普遍高于面部表情(59.86%)。
    • 多模态融合情感识别:通过MGMS模型融合EEG和面部表情特征,平均分类准确率达到86.01%,显著高于单模态方法。

主要结果

  1. EEG情感识别:LSTM提取的通道序列特征在分类性能上优于原始DE特征,重新排列通道序列后性能进一步提升。
  2. 面部表情情感识别:结合纹理特征和几何特征显著提高了分类性能,特别是在某些被试者中,准确率提升了近30个百分点。
  3. 多模态融合情感识别:MGMS模型在四类情感识别任务中表现出色,平均准确率达到86.01%,比单模态方法提高了超过20个百分点。

结论与意义

本研究提出了一种新颖的MGMS模型,通过融合EEG和面部表情特征,显著提高了听力受损者情感识别的准确性。该模型不仅能够提取模态通用特征,还能保留模态特异性特征,从而更全面地表示情感信息。实验结果表明,MGMS模型在四类情感识别任务中表现优异,具有较高的科学价值和应用潜力。

研究亮点

  1. 多模态融合:首次将EEG和面部表情特征融合用于听力受损者的情感识别,填补了该领域的研究空白。
  2. MGMS模型:提出了一种新颖的通用-特异性判别器,能够有效分离模态通用特征和模态特异性特征。
  3. 高分类准确率:通过多模态融合,平均分类准确率达到86.01%,显著优于单模态方法。

其他有价值的内容

本研究还验证了MGMS模型在DEAP数据集上的泛化能力,结果显示该模型在情感识别任务中优于现有方法。此外,研究还探讨了模型的计算成本,尽管参数数量较多,但其在情感识别任务中的性能提升显著。未来研究计划进一步扩展情感类别,并通过剪枝或知识蒸馏等方法降低模型的计算成本。

通过本研究,研究者为听力受损者的情感识别提供了一种高效的多模态融合方法,为情感计算领域的发展做出了重要贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com