分享自:

基于正则化深度核机器融合的多模态生理信号情感识别研究

期刊:IEEE Transactions on CyberneticsDOI:10.1109/tcyb.2020.2987575

基于多模态生理信号的情感识别研究:一种正则化深度核机器融合框架

一、 作者、机构及发表信息

本研究的主要作者包括Xiaowei Zhang, Jinyong Liu, Jian Shen, Shaojie Li, Kechen Hou, Bin Hu, Jin Gao, Tong Zhang。其中,多位作者隶属于兰州大学信息科学与工程学院及甘肃省可穿戴计算重点实验室。Bin Hu教授同时任职于中国科学院上海生命科学研究院脑科学与卓越创新中心。Tong Zhang教授则来自华南理工大学电子与信息学院。该研究以题为《Emotion Recognition from Multimodal Physiological Signals Using a Regularized Deep Fusion of Kernel Machine》的论文形式,于2020年被IEEE Transactions on Cybernetics期刊接收并在线发表。

二、 研究背景与目标

本研究隶属于情感计算与人工智能交叉领域,具体聚焦于基于生理信号的情感识别。情感在人机交互中扮演着核心角色,赋予机器情感智能是实现自然、和谐交互的关键。生理信号(如脑电、心电、皮肤电等)相较于面部表情、语音等外部表现,能够更客观、更真实地反映个体的内在情绪状态,因此在该领域受到广泛研究。

然而,基于生理信号的情感识别面临两大核心挑战:第一,情感本身的复杂性以及个体生理反应的巨大差异,导致模型泛化能力差;第二,单一模态的生理信号所包含的信息有限且可能受到个体特异性的干扰,识别性能存在瓶颈。例如,愤怒和惊讶都可能引起心率上升,但皮肤电反应等指标可能不同。因此,如何有效整合来自不同生理信号(多模态)的互补信息,设计出鲁棒且高效的融合模型,成为提升情感识别性能的重要课题。

本研究的目标是提出一个新颖的、能够有效探索多模态生理信号间相关性与多样性的深度学习融合框架,以提升被试无关(subject-independent)情感识别的性能。该框架旨在克服传统融合方法(如特征级、决策级融合)的局限性,通过深度表示学习与结构化正则化,学习出判别力更强的融合表示。

三、 研究详细工作流程

本研究的工作流程是一个完整的机器学习建模与验证过程,主要包含以下几个核心步骤:

1. 数据准备与特征提取 研究选取了两个公开的多模态情感生理信号基准数据集进行验证:DEAP数据库和DECAF数据库。DEAP数据集记录了32名被试观看40段音乐视频时的脑电图(EEG)、肌电图(EMG)、皮肤电反应(GSR)和呼吸频率(RES)信号。DECAF数据集则记录了30名被试观看36段视频时的脑磁图(MEG)、肌电图(EMG)、眼电图(EOG)和心电图(ECG)信号。 在每个数据集中,研究者将每次视频 trial 视为一个独立的样本。对于DEAP数据,使用TEAP工具箱从预处理后的信号中提取了一系列时域、频域和非线性特征。对于DECAF数据,则直接采用了数据集提供者已提取的特征。最终,DEAP形成1280个样本(32被试×40试次),DECAF形成990个样本(30被试×33试次)。特征提取后,对每个被试的数据进行了标准化处理,以减小被试间差异。研究任务定义为基于效价(Valence,愉悦-不愉悦)和唤醒度(Arousal,兴奋-平静)两个维度的二分类问题(高/低)。

2. 提出的正则化深度核机器融合框架构建 这是本研究的核心创新部分。研究者提出了名为RDFKM的正则化深度核机器融合框架。其整体架构是一个多阶段、层次化的深度学习模型,具体工作流程如下: * 第一阶段:多模态表示学习层 对于每一种生理信号模态(例如EEG、EMG等),首先为其特征构建一个核矩阵(Kernel Matrix)。核矩阵的每一行可视为该样本在再生核希尔伯特空间(RKHS)中基于其与所有其他样本相似性的一个“嵌入”。然而,原始核矩阵是高维且稀疏的。为此,研究采用Nyström方法进行核近似,为每个核矩阵生成一个低维的稠密嵌入表示。为了获得更稳健的表示,作者进一步提出了集成深度核机器优化(EDKMO)模型:通过对多个随机采样生成的稠密嵌入进行集成平均,得到一个集成稠密嵌入(Ensemble Dense Embedding)。然后,将此集成嵌入送入一个多层全连接网络(FCN)中,学习得到针对该模态的“任务特异性表示”。这个过程对每种模态独立进行。 * 第二阶段:中间融合层 为了促进不同模态表示之间的交互,研究引入了中间融合策略。具体而言,使用一个单层全连接网络,将任意两种模态的“任务特异性表示”进行融合,生成“中间交互表示”。这些交互表示将与各模态独立学习到的表示一起,构成一个更丰富的“最终表示集合”。 * 第三阶段:全局融合与分类层 这是框架的另一大创新点。研究者设计了一个带正则化项的全局融合层,用于将“最终表示集合”中的所有表示融合成一个统一的“最终融合表示”,并输入到Softmax层进行分类。关键在于,融合层的权重矩阵被重新组织,并通过引入一个关系矩阵(Relation Matrix)构建了一个新颖的正则化项。该正则化项被加入模型的总体损失函数中。其作用是:在优化过程中,自动探索和建模不同表示之间的相关性多样性。关系矩阵的非对角元素值越大,表示对应的两种表示越相似,而优化过程会促使相似表示的融合权重也趋于相似。这种结构化的正则化机制,使得模型能够更智能地利用不同表示之间的互补和冗余信息,从而学习出判别力更强、更稳健的融合表示。模型采用交替优化策略来更新网络权重和关系矩阵。

3. 实验设计与评估 为验证所提框架的有效性,研究进行了详尽的实验对比。 * 评估策略:采用留一被试交叉验证,这是被试无关情感识别中最严格、最具现实意义的评估方式。即每次将一位被试的所有数据作为测试集,其余所有被试的数据作为训练集,循环所有被试后取平均性能。这极大考验模型的泛化能力。 * 对比方法: * 单模态分类器:支持向量机(SVM)、决策树(DCT)、朴素贝叶斯(NB),用于评估单一模态的性能基线。 * 多模态融合方法:涵盖了不同融合层次的代表性方法,包括特征级融合SVM(SVM-FLF)、多种多核学习(MKL)方法(AverageMKL, SimpleMKL, EasyMKL)、深度全连接网络融合(FCN)以及决策级融合SVM(SVM-DLF)。 * 评估指标:使用分类准确率(Accuracy)和F1分数(F1 Score)作为主要评价指标。 * 模型实现细节:框架使用TensorFlow实现,并在GPU上进行训练。对核函数(RBF、线性、多项式)进行了选择,最终报告了最佳结果(主要来自RBF核)。

四、 主要研究结果

实验结果表明,所提出的RDFKM框架在多个方面展现出优越性能。

1. 多模态组合有效性验证 在DEAP和DECAF两个数据集上,分别测试了不同模态组合下的识别性能。结果一致显示:融合所有可用生理信号模态时,无论在效价还是唤醒度分类任务上,都取得了最佳性能。例如,在DEAP数据集上,融合EEG、EMG、GSR、RES四类信号,比任何单一模态或部分模态组合的识别率都要高。这验证了多模态信息融合的必要性和互补价值。同时,研究也观察到,并非所有两两模态的组合都能带来性能提升,有时甚至可能低于单个模态的性能,这突显了简单融合策略的局限性,以及需要像RDFKM这样能建模模态间复杂关系的智能融合框架的必要性。

2. 与现有融合方法的对比 在两个数据集的效价和唤醒度分类任务上,RDFKM框架均显著优于所有对比的基线融合方法。具体数据提升如下: * 在DEAP数据集上:对于唤醒度识别,RDFKM在准确率和F1分数上比次优方法提升了约10%和8%;对于效价识别,提升了约5%-7%。 * 在DECAF数据集上:对于效价识别,RDFKM在准确率上比次优方法提升了约6%-11%;对于唤醒度识别,在F1分数上提升了约6%。 统计检验(Friedman检验与Nemenyi检验)证实,RDFKM相对于多数基线方法的性能提升具有统计显著性。这一结果强有力地证明了所提框架在融合多模态生理信号、提升情感识别泛化性能方面的有效性。

3. 与最新研究的对比 研究还将RDFKM的性能与同期或近期使用相同或相似数据集(DEAP, DECAF)的先进研究进行了对比。在同样采用更具挑战性的留一被试交叉验证策略下,RDFKM取得的识别准确率与F1分数优于或可与这些先进方法相媲美,显示了其竞争力。

4. 表示可视化分析 为了更直观地展示RDFKM框架学习到的融合表示的质量,研究使用t-SNE算法将高维的融合表示降维至二维平面进行可视化。结果显示,相较于AverageMKL、EasyMKL等传统多核学习方法,以及普通的深度全连接网络(FCN),RDFKM框架生成的最终融合表示在二维空间中的类间可分性明显更强。属于不同情感类别(如高效价 vs. 低效价)的样本点聚集得更加紧密,而不同类别的簇之间分离得更加清晰。这从几何角度直观地证实了RDFKM所学习的表示具有更高的判别力。

五、 研究结论与价值

本研究成功提出并验证了一种用于多模态生理信号情感识别的正则化深度核机器融合框架。其主要结论和价值体现在:

1. 方法学创新:该研究创造性地将核方法(提供非线性映射和相似性度量)与深度学习(强大的层次化表示学习能力)相结合。通过EDKMO模型将核矩阵转化为可学习的深度表示,并利用带关系矩阵正则化的全局融合层,实现了对多模态表示间复杂关系(相关性与多样性)的同步探索与利用。这是一种介于特征级和决策级之间的、更灵活的“中晚期”深度融合策略。

2. 解决关键挑战:框架有效应对了情感识别中个体差异大、单模态信息不足的难题。通过集成学习和结构化正则化,提升了模型对于新被试的泛化能力,这对于情感计算的实际应用至关重要。

3. 实用优势:由于框架的输入是基于核矩阵的表示,它对多模态信号在采集时的时间同步性要求较低,可以直接处理异构且不完全同步的数据,这增强了其实用性。

4. 科学价值与应用前景:本研究为多模态信息融合,特别是生理信号融合,提供了一种新颖且强大的深度学习框架范式。它不仅提升了情感识别的性能,其核心思想(核机器与深度网络结合、基于关系矩阵的正则化)也可迁移至其他需要融合多源异质数据的领域,如医学诊断、生物特征识别、多媒体内容分析等。研究代码基于主流框架实现,具有良好的可复现性和扩展性。

六、 研究亮点

  1. 新颖的融合框架:首次提出了将集成核机器嵌入与深度表示学习相结合,并通过关系矩阵正则化进行全局融合的完整框架(RDFKM),为多模态情感识别提供了新的解决方案。
  2. 深入的模态关系建模:创新性地在损失函数中引入基于关系矩阵的结构化正则化项,使模型能够以数据驱动的方式自动学习并利用不同模态表示之间的相关性与差异性,而非进行简单拼接或投票。
  3. 卓越的泛化性能:在严格的留一被试交叉验证设置下,在两个公开基准数据集上均取得了显著优于传统单模态方法及其他多模态融合方法的性能,证明了其在解决个体差异问题上的有效性。
  4. 强解释性的可视化证据:通过t-SNE可视化,直观展示了所提框架学习到的融合表示具有更高的类间可分性,为模型性能的提升提供了有力的辅助证明。
  5. 灵活的架构与实用性:框架对不同任务和模态数量具有灵活性,且对输入信号的同步性不敏感,更贴近实际应用场景。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com