情感识别与人工智能:2014-2023年系统性综述及研究建议
作者及机构
本综述由Mith K. Khare(南丹麦大学马士基麦金尼研究所应用AI与数据科学单元)、Victoria Blanes-Vidal(同前)、Esmaeil S. Nadimi(同前)及U. Rajendra Acharya(南昆士兰大学数学、物理与计算学院)合作完成,发表于2024年的期刊 *Information Fusion*(卷102,文章编号102019)。
研究背景与目标
情感识别(Emotion Recognition)是通过问卷、生理信号(如脑电图EEG、心电图ECG)和物理信号(如语音、面部图像)推断人类情绪的能力,在医疗健康、人机交互、市场研究等领域具有广泛应用。过去十年间,尽管已有部分综述研究,但多数聚焦单一模态(如仅EEG或语音),缺乏对多模态融合、系统性方法(如PRISMA指南)及未来方向的全面探讨。为此,本文旨在填补以下空白:
1. 系统性不足:既往综述多未遵循PRISMA指南,缺乏标准化文献筛选流程;
2. 模态局限性:多数研究仅关注单一信号(如EEG或面部图像),忽略多模态协同分析的潜力;
3. 应用与挑战:现有综述对实际应用(如医疗、教育)和研究挑战(如数据集稀缺)讨论不足。
核心内容与框架
1. 情感模型分类
- 离散理论(Discrete Emotions Theory):将情绪分为6种基本类型(快乐、悲伤、愤怒等)或Plutchik的8类模型(如恐惧、信任)。
- 多维理论(Multidimensional Theory):通过效价(Valence)、唤醒度(Arousal)、支配度(Dominance)的二维(V/A)或三维(V/A/D)空间量化情绪。
情感感知模态
自动化情感识别系统流程
数据集与性能分析
研究亮点
1. 全面性:覆盖6种信号模态(EEG、ECG、GSR、ET、语音、面部图像),纳入142篇文献(2014-2023年)。
2. 方法论创新:首次提出“信息融合”(Information Fusion)框架,包括传感器级、特征级和决策级融合策略。
3. 应用导向:提出情感识别在医疗(如帕金森病监测)、教育(学生情绪反馈)等领域的落地路径。
未来方向
1. 多模态数据集:需开发同步采集EEG、ECG、GSR的公开数据集。
2. 可解释AI:引入XAI(如SHAP值、Grad-CAM)增强模型可信度。
3. 联邦学习:解决数据隐私与跨中心模型训练问题。
学术价值
本文为情感识别领域首篇系统性整合多模态与AI技术的综述,不仅总结了技术进展,更提出了“融合-解释-应用”三位一体的研究范式,对推动跨学科应用(如精准医疗、智能教育)具有里程碑意义。