分享自:

运动识别与人工智能:系统综述(2014-2023)及研究建议

期刊:information fusionDOI:10.1016/j.inffus.2023.102019

情感识别与人工智能:2014-2023年系统性综述及研究建议

作者及机构
本综述由Mith K. Khare(南丹麦大学马士基麦金尼研究所应用AI与数据科学单元)、Victoria Blanes-Vidal(同前)、Esmaeil S. Nadimi(同前)及U. Rajendra Acharya(南昆士兰大学数学、物理与计算学院)合作完成,发表于2024年的期刊 *Information Fusion*(卷102,文章编号102019)。

研究背景与目标
情感识别(Emotion Recognition)是通过问卷、生理信号(如脑电图EEG、心电图ECG)和物理信号(如语音、面部图像)推断人类情绪的能力,在医疗健康、人机交互、市场研究等领域具有广泛应用。过去十年间,尽管已有部分综述研究,但多数聚焦单一模态(如仅EEG或语音),缺乏对多模态融合、系统性方法(如PRISMA指南)及未来方向的全面探讨。为此,本文旨在填补以下空白:
1. 系统性不足:既往综述多未遵循PRISMA指南,缺乏标准化文献筛选流程;
2. 模态局限性:多数研究仅关注单一信号(如EEG或面部图像),忽略多模态协同分析的潜力;
3. 应用与挑战:现有综述对实际应用(如医疗、教育)和研究挑战(如数据集稀缺)讨论不足。

核心内容与框架
1. 情感模型分类
- 离散理论(Discrete Emotions Theory):将情绪分为6种基本类型(快乐、悲伤、愤怒等)或Plutchik的8类模型(如恐惧、信任)。
- 多维理论(Multidimensional Theory):通过效价(Valence)、唤醒度(Arousal)、支配度(Dominance)的二维(V/A)或三维(V/A/D)空间量化情绪。

  1. 情感感知模态

    • 问卷法:如PANAS(正负情绪量表)、SAM(自我评估模型)。
    • 生理信号
      • EEG:高时间分辨率,适合动态情绪分析;
      • ECG:低成本、高信噪比,适用于可穿戴设备;
      • 皮肤电反应(GSR):反映自主神经活动;
      • 眼动追踪(ET):通过注视模式识别情绪。
    • 物理信号:语音(MFCC特征提取)和面部图像(CNN模型主导)。
  2. 自动化情感识别系统流程

    • 刺激呈现:通过视频、音乐或虚拟现实(VR)诱发目标情绪。
    • 信号预处理:去噪(如EEG的伪迹去除)、归一化。
    • 特征提取
      • 时频分析(如小波变换、EMD分解);
      • 非线性特征(如近似熵、李雅普诺夫指数)。
    • 分类模型
      • 机器学习(SVM、KNN为主);
      • 深度学习(CNN、LSTM在图像和语音中表现优异)。
  3. 数据集与性能分析

    • EEG:DEAP、SEED数据集使用最广,最高准确率达99.67%(基于TQWT特征与SVM)。
    • ECG:DREAMER数据集主导,融合特征可使准确率提升至98.8%。
    • 挑战:数据集单一性(如缺乏多模态同步采集)、模型泛化能力不足。

研究亮点
1. 全面性:覆盖6种信号模态(EEG、ECG、GSR、ET、语音、面部图像),纳入142篇文献(2014-2023年)。
2. 方法论创新:首次提出“信息融合”(Information Fusion)框架,包括传感器级、特征级和决策级融合策略。
3. 应用导向:提出情感识别在医疗(如帕金森病监测)、教育(学生情绪反馈)等领域的落地路径。

未来方向
1. 多模态数据集:需开发同步采集EEG、ECG、GSR的公开数据集。
2. 可解释AI:引入XAI(如SHAP值、Grad-CAM)增强模型可信度。
3. 联邦学习:解决数据隐私与跨中心模型训练问题。

学术价值
本文为情感识别领域首篇系统性整合多模态与AI技术的综述,不仅总结了技术进展,更提出了“融合-解释-应用”三位一体的研究范式,对推动跨学科应用(如精准医疗、智能教育)具有里程碑意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com