分享自:

使用深度学习迁移模型和可解释技术的语音情感识别

期刊:Appl. Sci.DOI:10.3390/app14041553

基于深度学习迁移模型与可解释性技术的语音情感识别研究——Kim & Kwak团队在《Applied Sciences》上的创新成果

本研究由韩国朝鲜大学(Chosun University)电子工程系的Tae-Wan Kim和Keun-Chang Kwak团队完成,发表于2024年2月15日的《Applied Sciences》期刊(Volume 14, Issue 4, DOI:10.3390/app14041553),是一篇聚焦语音情感识别(Speech Emotion Recognition, SER)系统可靠性与可解释性提升的原创性研究。

学术背景

语音情感识别是人机交互、心理健康监测和智能服务的关键技术。传统SER研究面临两大挑战:
1. 数据不确定性:环境噪声、语音断裂等因素干扰模型判断;
2. 模型黑箱问题:现有深度学习模型缺乏决策过程的可解释性。
为此,研究者提出通过多数据集泛化建模高斯数据选择(Gaussian Data Selection, GDS)预处理多模型融合,结合可解释性人工智能(Explainable AI, XAI)技术(如Grad-CAM、LIME、Occlusion Sensitivity),构建高可靠性SER系统。

研究流程与方法

1. 数据预处理与特征提取

  • 数据集:整合CSU 2021(80条语音)、CSU 2022(16,000条语音)和AI-Hub(10,351条语音)三个韩国语数据集,覆盖愤怒、快乐、中性、悲伤等4-8类情感。
  • 短时傅里叶变换(STFT):将语音转换为时频域谱图(参数:窗口大小1200,重叠720,汉恩窗,Mel尺度滤波器64通道)。
  • 高斯数据选择(GDS)算法
    • 将谱图按模型输入尺寸分割为时间片段;
    • 计算每个片段的均值与方差,构建高斯分布;
    • 通过片段间相关系数阈值筛选,剔除无关片段(减少15%数据量,训练时间缩短22%)。

2. 模型架构设计

  • 迁移模型融合
    • VGGish(Google开发):保留时频位置特征,提取多层特征图(尺寸分别为24×16×128、12×8×256、6×4×512);
    • YAMNet(Google开发):全局池化侧重通道特征,忽略位置信息。
  • 晚期融合(Late-Fusion)策略:独立训练后,在分类层前通过深度结合(Depth-Combining)方式整合两模型特征,减少通道间干扰。

3. 可解释性分析

  • Grad-CAM:基于梯度加权类激活映射,定位时频域关键区域;
  • LIME:通过局部扰动分析像素级影响;
  • Occlusion Sensitivity:遮挡测试验证区域重要性。
  • 音频回溯:将Grad-CAM激活区域反向转换为语音,供人工验证(如愤怒情感高频区集中对应特定词汇)。

主要结果

  1. 分类性能:融合模型准确率达87%,优于独立模型(VGGish 83.2%,YAMNet 78.5%)。F1分数0.8653,召回率0.8681。
  2. 频率域特征
    • 愤怒与快乐激活高频区域(>2000 Hz);
    • 中性与悲伤集中于低频(<1000 Hz)。
  3. 可解释性验证
    • Grad-CAM显示模型依赖高能量时频区域;
    • LIME发现辅音爆破音对愤怒分类贡献显著;
    • 音频回溯证实激活区域与情感语义相关(如愤怒语句中的重音音节)。

结论与价值

  1. 科学价值
    • 提出GDS算法,首次将高斯分布相关性用于语音数据清洗;
    • 证明VGGish与YAMNet的互补性融合可提升SER鲁棒性。
  2. 应用价值
    • 为医疗情感监测、智能客服提供可解释性解决方案;
    • 开源代码与多环境数据集支持跨语言研究复现。

研究亮点

  1. 创新方法
    • GDS算法实现无监督数据降噪;
    • 融合模型兼顾时频局部与全局特征。
  2. 多维度验证
    • 联合三类可解释性技术交叉验证模型决策;
    • 首创时频激活区域音频回溯技术。
  3. 工程优化
    • 计算资源消耗降低15%,适合边缘设备部署。

其他发现

  • 跨数据集泛化性:模型在非实验室环境(如AI-Hub的演员语音)中保持85.82%准确率;
  • 文化特异性:韩语情感表达的高频特征可能与语调重音相关,需进一步跨语言比较。

该研究为SER领域提供了方法论创新与技术实现的双重范例,其可解释性框架尤其适用于高可靠性要求的医疗与法律场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com