使用深度学习迁移模型和可解释技术的语音情感识别

分享自：

使用深度学习迁移模型和可解释技术的语音情感识别

人工智能

医学

期刊:Appl. Sci.DOI:10.3390/app14041553

【点击此处】阅读全文、收藏及针对性提问

基于深度学习迁移模型与可解释性技术的语音情感识别研究——Kim & Kwak团队在《Applied Sciences》上的创新成果
本研究由韩国朝鲜大学（Chosun University）电子工程系的Tae-Wan Kim和Keun-Chang Kwak团队完成，发表于2024年2月15日的《Applied Sciences》期刊（Volume 14, Issue 4, DOI:10.3390/app14041553），是一篇聚焦语音情感识别（Speech Emotion Recognition, SER）系统可靠性与可解释性提升的原创性研究。
学术背景语音情感识别是人机交互、心理健康监测和智能服务的关键技术。传统SER研究面临两大挑战：
 1. 数据不确定性：环境噪声、语音断裂等因素干扰模型判断；
 2. 模型黑箱问题：现有深度学习模型缺乏决策过程的可解释性。
 为此，研究者提出通过多数据集泛化建模、高斯数据选择（Gaussian Data Selection, GDS）预处理和多模型融合，结合可解释性人工智能（Explainable AI, XAI）技术（如Grad-CAM、LIME、Occlusion Sensitivity），构建高可靠性SER系统。
研究流程与方法1. 数据预处理与特征提取数据集：整合CSU 2021（80条语音）、CSU 2022（16,000条语音）和AI-Hub（10,351条语音）三个韩国语数据集，覆盖愤怒、快乐、中性、悲伤等4-8类情感。
 
短时傅里叶变换（STFT）：将语音转换为时频域谱图（参数：窗口大小1200，重叠720，汉恩窗，Mel尺度滤波器64通道）。
 
高斯数据选择（GDS）算法：
 将谱图按模型输入尺寸分割为时间片段；
 
计算每个片段的均值与方差，构建高斯分布；
 
通过片段间相关系数阈值筛选，剔除无关片段（减少15%数据量，训练时间缩短22%）。
 
2. 模型架构设计迁移模型融合：
 VGGish（Google开发）：保留时频位置特征，提取多层特征图（尺寸分别为24×16×128、12×8×256、6×4×512）；
 
YAMNet（Google开发）：全局池化侧重通道特征，忽略位置信息。
 
晚期融合（Late-Fusion）策略：独立训练后，在分类层前通过深度结合（Depth-Combining）方式整合两模型特征，减少通道间干扰。
 
3. 可解释性分析Grad-CAM：基于梯度加权类激活映射，定位时频域关键区域；
 
LIME：通过局部扰动分析像素级影响；
 
Occlusion Sensitivity：遮挡测试验证区域重要性。
 
音频回溯：将Grad-CAM激活区域反向转换为语音，供人工验证（如愤怒情感高频区集中对应特定词汇）。
 
主要结果分类性能：融合模型准确率达87%，优于独立模型（VGGish 83.2%，YAMNet 78.5%）。F1分数0.8653，召回率0.8681。
 
频率域特征：
 愤怒与快乐激活高频区域（>2000 Hz）；
 
中性与悲伤集中于低频（<1000 Hz）。
 
可解释性验证：
 Grad-CAM显示模型依赖高能量时频区域；
 
LIME发现辅音爆破音对愤怒分类贡献显著；
 
音频回溯证实激活区域与情感语义相关（如愤怒语句中的重音音节）。
 
结论与价值科学价值：
 提出GDS算法，首次将高斯分布相关性用于语音数据清洗；
 
证明VGGish与YAMNet的互补性融合可提升SER鲁棒性。
 
应用价值：
 为医疗情感监测、智能客服提供可解释性解决方案；
 
开源代码与多环境数据集支持跨语言研究复现。
 
研究亮点创新方法：
 GDS算法实现无监督数据降噪；
 
融合模型兼顾时频局部与全局特征。
 
多维度验证：
 联合三类可解释性技术交叉验证模型决策；
 
首创时频激活区域音频回溯技术。
 
工程优化：
 计算资源消耗降低15%，适合边缘设备部署。
 
其他发现跨数据集泛化性：模型在非实验室环境（如AI-Hub的演员语音）中保持85.82%准确率；
 
文化特异性：韩语情感表达的高频特征可能与语调重音相关，需进一步跨语言比较。
 
该研究为SER领域提供了方法论创新与技术实现的双重范例，其可解释性框架尤其适用于高可靠性要求的医疗与法律场景。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问