本文由Jonghwa Kim与Elisabeth André撰写,他们隶属于德国奥格斯堡大学信息学研究所(Institut für Informatik, University of Augsburg)。该研究以《Emotion Recognition Based on Physiological Changes in Music Listening》为题,发表于2008年12月的IEEE期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(第30卷第12期)。这是一篇报告单一原创性研究的学术论文,属于类型a。
本研究立足于情感计算与先进人机交互领域,旨在解决机器对人类情感状态理解不足的核心问题。长期以来,自动情感识别研究主要集中于面部表情、语音等视听通道,而对生理信号这一通道的关注相对较少。这主要源于生理信号用于情感识别的诸多挑战:首先,生理模式与特定情感状态之间难以建立唯一映射,因其受时间、情境、文化、个人差异等因素影响巨大;其次,生物信号的记录需要用户身体连接传感器,且易受运动伪影干扰;最后,获取用于研究的生理数据“真实标签”非常困难,因为观察者无法像识别面部表情那样直接感知生理信号流所代表的情绪。然而,生理信号也具备显著优势:它们可以持续提供用户的情感信息;由自主神经系统调节的生理活动在很大程度上是不自主的,难以被意识或意图控制,因此可能成为对抗人类社会性情感掩饰(如“强颜欢笑”)的最鲁棒的情感通道;此外,已有实验证据表明,某些自主神经系统活动模式具有跨文化一致性。基于此,本研究的目标是构建一个基于多通道生理信号的自动情感识别系统,并探究其作为可靠情感识别通道的潜力,重点解决自然情感诱导下的生理特异性问题。
研究的详细工作流程系统性地涵盖了从数据采集到分类的各个阶段,具体包括实验设置、信号预处理、特征计算与选择、分类器设计与性能评估。
第一, 实验设计与数据采集。 为了在非实验室强制环境下收集反映真实情感状态的生理数据集,本研究创新性地采用了音乐诱导方法。研究者认为,音乐是唤醒情感体验和个人记忆的强大线索,且听音乐通常是个人单独行为,可以最小化社会互动和情感掩饰带来的干扰。研究招募了3名男性受试者(年龄25-38岁),均为实验室成员。研究并未提供预设的音乐列表,而是让每位受试者根据自己的经历和记忆,亲自挑选四首能分别诱发对应于二维情感模型四个象限情感的歌曲:第一象限(EQ1):积极/高唤醒(如快乐、兴奋);第二象限(EQ2):消极/高唤醒(如愤怒、烦躁);第三象限(EQ3):消极/低唤醒(如悲伤、忧郁);第四象限(EQ4):积极/低唤醒(如平静、愉悦)。实验在一个安静的听音室进行,受试者自主决定录制时间表,自由选择想听的歌曲,从而在自愿参与中获取更自然的情感数据。在三个月内,共收集了360个样本(每位受试者每种情感90个样本),每个样本信号时长为3-5分钟。生理信号使用ProComp2 Infiniti八通道生物反馈系统记录,采用了四种生物传感器:心电图(ECG,采样率256 Hz)、皮肤电导(SC,采样率32 Hz)、肌电图(EMG,采样率32 Hz)和呼吸(RSP,采样率32 Hz)。传感器具体放置位置为:ECG电极置于躯干,SC电极置于非优势手的食指和无名指,EMG电极置于上斜方肌(靠近颈部)以测量精神压力,RSP传感器为环绕胸部的拉伸传感器。
第二, 信号预处理。 由于记录过程中存在受试者移动引起的瞬态噪声(尤其在开始和结束时),对所有信号进行了统一处理:截取每段信号中间部分的160秒作为最终分析样本。对于EMG信号,因其位置关系包含了心跳和呼吸伪影,研究采用了自适应带通滤波器来去除这些干扰。对于其他信号,则使用了相应的低通滤波器去除噪声。
第三, 特征提取与选择。 这是本研究的核心贡献之一。研究者从四个通道的信号中计算了总数达110个特征,涵盖了广泛的分析域,以探寻最佳的情感相关特征。特征提取方法具有显著的新颖性和系统性: * 心电图分析: 不仅分析了原始ECG信号的子带谱(将0-10Hz频谱分为8个子带,计算功率均值、谱熵及其比值),更重要的是对心率变异性进行了深入分析。首先使用Pan和Tompkins的算法检测QRS波,提取RR间期序列(HRV时域)。从HRV时域中计算了统计特征(均值、标准差等)、庞加莱几何分析指标(SD1, SD2)。创新性地引入了多尺度样本熵(Multiscale Sample Entropy, MSE)来分析HRV序列在不同时间尺度上的复杂性。在频域,将HRV功率谱划分为三个子带:极低频、低频、高频,并计算了各子带功率及低频/高频功率比(LF/HF),该比值常被用于衡量交感与副交感神经活动的平衡。 * 呼吸信号分析: 除了对原始RSP信号进行时域统计和子带谱分析外,本研究首创性地对呼吸信号进行了类似HRV的分析,即呼吸率变异性分析。通过检测RSP信号的峰值,提取了峰峰间期序列(BRV时域),并对其进行了与HRV类似的特征计算,包括时域统计、庞加莱分析和多尺度样本熵,以及BRV频谱分析(计算低频/高频功率比)。这旨在探究呼吸与心脏活动之间与情感状态相关的内在关联。 * 皮肤电导与肌电图分析: 对于SC信号,除了常规统计量,重点分析了皮肤电导响应(SCR)的出现次数、平均幅度及其在不同低通滤波信号(截止频率0.2 Hz和0.08 Hz)中的比值。对于EMG信号,采用了类似的分析策略,计算了肌电响应的发生次数等特征。 完成特征计算后,面对高维特征(110维)与有限样本(360个)可能导致的“维度灾难”,研究者采用了序列后向选择(Sequential Backward Selection, SBS)结合线性分类器的方法进行特征选择,以找出对情感分类最有效的特征子集,并保留这些特征在原始分析域中的意义。
第四, 分类与评估。 研究首先测试了k近邻、多层感知机和线性判别分析等分类器,最终选择了在本数据集上表现更优的线性判别分析。为了解决经典LDA可能面临的类内散度矩阵奇异性问题,研究采用了伪逆线性判别分析。分类任务包括:四类情感直接分类、基于唤醒度(高 vs. 低)的两类分类、基于效价(积极 vs. 消极)的两类分类。评估采用留一法交叉验证。更重要的是,本研究基于二维情感模型的二分特性,创新性地提出了一种情感特异性多级二分分类方案。该方案的核心思想是:由于唤醒度分类的准确率通常高于效价分类或直接的多类分类,因此可以策略性地将四类情感的多类问题分解为一系列二分问题。例如,第一级首先根据唤醒度将所有样本分为高唤醒(EQ1+EQ2)和低唤醒(EQ3+EQ4)两个超类;第二级再在每个超类内部根据效价进行二分(如在高唤醒超类内区分EQ1和EQ2)。每一级都使用针对该二分问题选择的最佳特征集和PLDA分类器进行训练和分类。这是一种利用先验情感模型结构来提升分类性能的新型策略。
研究的主要结果详实,并通过数据和支持性分析层层递进。 在特征分析结果方面, 通过SBS特征选择,研究者确定了最佳的情感相关特征,并发现不同分类问题与特定特征域相关联。例如,对于唤醒度分类,所选特征数量相对较少但准确率极高,其中SC和EMG信号的特征(尤其是皮肤电导响应相关特征)占主导地位,这验证了皮肤电导与唤醒强度线性相关的已知结论。对于效价分类和四类情感分类,ECG和RSP信号的特征变得至关重要,特别是来自HRV和BRV的时频分析、庞加莱几何以及多尺度样本熵等特征。一个关键性发现是,HRV和BRV分析揭示了心率与呼吸之间存在明显的、与情感状态相关的交叉关联,例如HRV的庞加莱分析指标和BRV的多尺度熵等特征在多个分类问题中都被选中,这表明情感刺激会引发一系列连锁的自主神经系统反应。 在分类性能结果方面, 使用PLDA进行直接分类的结果显示:被试内分类准确率较高,四类情感的平均准确率为87%(被试A 81%, 被试B 91%, 被试C 89%),唤醒度分类准确率高达98%,效价分类准确率为91%。混淆矩阵分析表明,效价区分(如EQ1与EQ2, EQ3与EQ4之间的混淆)是主要的错误来源,而对角象限的情感(如EQ1与EQ3)区分效果较好。被试间分类准确率显著下降,四类情感仅为65%,唤醒度分类为89%,效价分类为77%,这表明个体生理背景差异对情感识别影响巨大。 在创新分类方案结果方面, 应用情感特异性多级二分分类方案后,识别准确率得到了显著提升。对于四类情感分类,被试内平均准确率从87%提高到了95%,被试间准确率从65%提高到了70%。对于唤醒度和效价分类,准确率也有5-13个百分点的提升。这充分证明了该方案的有效性。 在额外分析结果方面, 为了探究被试间识别困难的原因,研究者尝试使用相同的特征集进行被试身份识别。结果令人惊讶:无论是针对每种情感分别识别,还是合并所有数据,身份识别的准确率都接近完美(情感依赖识别达100%,情感独立识别达99.4%)。这强烈暗示,被试间分类性能不佳的主要原因可能在于个体间非情感性的生理背景差异非常复杂且显著,而非情感本身的ANS反应缺乏一致性。
本研究的结论是:通过系统性地处理基于生理信号的自动情感识别的所有关键阶段,研究证实了在聆听音乐时产生或感知的情感,其伴随的生理变化在唤醒度和效价维度上均存在差异,并且这些差异能够被机器识别。具体而言,研究实现了对四种音乐情感平均95%的被试内识别准确率,这为音乐能够诱发并伴随差异化自主神经系统活动提供了有力证据。研究所确定的最佳情感相关特征集(特别是来自HRV/BRV分析的新特征)对设计实际应用的情感界面具有直接参考价值。所提出的情感特异性多级二分分类方案显著提升了分类性能,为基于模型结构的分类策略提供了新思路。同时,研究也明确指出被试间识别仍是重大挑战,并探讨了先进行用户身份识别的可行扩展方案。
本研究的亮点体现在多个方面:在方法论上, 采用了自然主义的音乐诱导数据收集方法,避免了实验室强制设定;提出了涵盖时域、频域、熵、几何分析、子带谱、多尺度熵及首创的BRV分析在内的广泛特征集;创新性地设计了情感特异性多级二分分类方案。在研究发现上, 不仅实现了较高的情感识别准确率,更重要的是通过特征分析揭示了不同生理通道与情感维度的关联(如SC/EMG与唤醒度强相关,ECG/RSP与效价强相关),并首次通过HRV/BRV分析实证了情感状态下呼吸与心脏活动的内在相关性。在研究意义上, 该工作为将生理信号作为情感识别“基线通道”提供了扎实的论据和可行的技术路径,并指出了未来迈向多模态情感识别、结合用户上下文信息以及解决被试差异等方向。