分享自:

图到网格:学习深度表示以进行多模态情感识别

期刊:Proceedings of the 31st ACM International Conference on Multimedia (MM '23)DOI:10.1145/3581783.3612074

本文档属于类型a,即单篇原创研究的学术报告。以下是该研究的详细介绍:

作者与机构

该研究由Ming Jin和Jinpeng Li共同完成,两人均来自中国科学院大学宁波生命与健康产业研究院和宁波市第二医院。研究论文于2023年10月29日至11月3日在第31届ACM国际多媒体会议(MM ‘23)上发表。

学术背景

该研究的主要科学领域为多模态情感识别,特别是基于脑电图(EEG, Electroencephalogram)和辅助生理信号(如眼动追踪)的情感识别。EEG信号因其高可靠性被广泛应用于情感脑机接口(ABCI, Affective Brain-Computer Interface)中。然而,现有的EEG信号处理方法通常将其视为一维(1-D)图状特征,只能采用简单的浅层模型进行情感识别,难以解耦复杂的情感模式。因此,研究团队提出了Graph-to-Grid (G2G)模块,将1-D图状数据通过数值关系编码转化为二维(2-D)网格状数据,从而能够利用成熟的深度学习模型(如ResNet)进行情感识别。该研究旨在解决现有方法在处理复杂情感模式时的局限性,并简化多模态融合的复杂性。

研究流程

研究流程主要包括以下几个步骤:

  1. 数据采集与预处理
    研究使用了三个公开的EEG情感识别数据集:SEED、SEED-V和MPED。这些数据集分别包含不同数量的情感类别和多模态生理信号。EEG信号通过放置在头皮上的电极采集,经过滤波、基线校正和下采样等预处理步骤,最终转化为1-D图状特征。

  2. G2G模块的设计与实现
    G2G模块的核心是将1-D图状EEG特征转化为2-D网格状特征。具体实现包括以下子步骤:

    • 随机特征解耦(RFD, Random Feature Decoupling):通过随机排列电极位置,消除电极空间结构带来的偏差,确保后续关系重建完全基于特征相关性。
    • 特征引导的维度重建(FDR, Feature-Guided Dimension Reconstruction):将节点特征与电极位置融合,计算基于注意力的节点关系,生成2-D特征耦合矩阵。
    • 多分支拼接(Multi-Branch Concat):通过多分支RFD增强特征,模拟更多可能的节点邻居交互,以匹配后续的卷积神经网络(CNN)。
  3. 多模态信号对齐
    对于包含多模态数据的数据集(如SEED-V和MPED),研究团队对辅助生理信号进行了特征重组,包括特征压缩、去稀疏化和特征对齐,以确保与EEG信号的交互。

  4. 深度学习模型的应用
    生成的2-D特征耦合矩阵被输入到深度CNN(如ResNet)中进行情感识别。研究团队评估了三种常用的CNN模型:ConvNet、ResNet18和ResNet50,并对其进行了调整以适应2-D特征耦合。

  5. 实验与评估
    研究在三个数据集上进行了广泛的实验,评估了G2G模块在单模态和多模态情感识别中的性能。实验结果表明,G2G模块在所有数据集上均达到了最先进的情感识别精度,并展示了良好的跨会话泛化能力。

主要结果

  1. 单模态情感识别
    在SEED数据集上,G2G与ResNet50结合的情感识别准确率达到了97.36%,超过了之前的最优结果(PGCN的96.93%)。在SEED-V和MPED数据集上,G2G也分别取得了83.87%和41.04%的准确率,均优于现有方法。

  2. 多模态情感识别
    在SEED-V和MPED数据集上,G2G模块通过融合EEG和辅助生理信号,进一步提高了情感识别准确率。例如,在SEED-V数据集上,G2G与ResNet50结合的准确率达到了86.24%,比单模态结果提高了约2%。

  3. 跨会话泛化能力
    G2G模块显著提高了模型的跨会话泛化能力。在SEED-V数据集上,G2G与ResNet50结合的跨会话识别准确率提高了4.29%。

结论

该研究提出的G2G模块为EEG情感识别提供了一种新的数据处理方法,能够将1-D图状特征转化为2-D网格状特征,从而利用深度CNN模型进行复杂情感模式的解耦。G2G不仅简化了多模态融合的复杂性,还显著提高了情感识别的准确率和泛化能力。该研究为后续开发更强大的情感识别算法提供了新的思路,并有望扩展到其他基于EEG的模式识别任务中。

研究亮点

  1. 创新性方法:G2G模块首次将1-D图状EEG特征转化为2-D网格状特征,为深度学习模型的应用提供了可能。
  2. 多模态融合简化:G2G通过矩阵扩展操作简化了多模态融合,显著降低了模型设计和参数调优的难度。
  3. 性能提升:G2G在多个数据集上均达到了最先进的情感识别精度,并展示了良好的跨会话泛化能力。
  4. 广泛适用性:G2G模块不仅适用于EEG情感识别,还可扩展到其他1-D或图状数据的处理任务中。

其他有价值的内容

研究团队还通过消融实验验证了G2G模块中随机特征解耦和多模态交互的有效性。此外,研究代码已公开发布,为其他研究者提供了便利。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com