基于频谱-时间调制特征的双流鲁棒语音情感识别
基于频谱-时间调制特征的双流鲁棒语音情感识别研究
学术背景
语音情感识别(Speech Emotion Recognition, SER)是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而,尽管基于深度学习的SER模型在受控环境中表现出色,但在真实环境中的噪声条件下,其性能显著下降。噪声(如交通噪声、风扇噪声等)会严重干扰语音信号,导致情感识别系统的准确性大幅降低。因此,开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。
传统的SER系统通常依赖于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和梅尔频谱图等声学特征。然而,这些特征在噪声环境下容易受到干扰,导致识别性能下降。近年来,研究者们开始探索其他更具鲁棒性的特征,例如频谱-时间调制(Spectro-Temporal Modulation, STM)特征。STM特征通过模拟人类听觉皮层的处理机制,能够更好地捕捉语音信号中的情感信息,并在噪声环境下表现出更强的鲁棒性。
论文来源
本文由来自台湾国立阳明交通大学电子与电气工程系的Yih-Liang Shen、Pei-Chin Hsieh和Tai-Shih Chi共同撰写,并于2021年8月发表在《Journal of LaTeX Class Files》上。研究得到了台湾科技部的资助。
研究流程
1. 研究目标
本文提出了一种结合频谱-时间调制特征和传统声学特征的双流SER模型,旨在提高模型在噪声环境下的鲁棒性。研究通过在德语(EMODB)和英语(RAVDESS)数据集上进行实验,验证了该模型在“干净训练-噪声测试”范式下的有效性。
2. 数据准备
研究使用了两个公开的SER数据集:EMODB和RAVDESS。EMODB数据集包含535条德语语音样本,涵盖7种情感;RAVDESS数据集包含1440条英语语音样本,涵盖8种情感。所有语音样本被统一处理为3秒长度,不足部分用零填充。
3. 特征提取
研究采用了两种特征:
- 梅尔频谱图:通过40ms的窗口长度、10ms的跳跃长度、2048点的快速傅里叶变换(FFT)以及128个梅尔频率带生成。
- 频谱-时间调制特征:通过对梅尔频谱图应用调制滤波器生成。调制滤波器的速率参数(ω)设置为±2、±4、±8、±16、±32 Hz,尺度参数(ω)设置为0.5、1、2、4 cycles/20 mel-bands。
4. 模型设计
研究提出了一种双流注意力卷积循环神经网络(Two-Stream Attention-based Convolutional Recurrent Neural Network, TACRNN)模型,包含两个分支:
- 梅尔频谱分支:采用卷积层提取梅尔频谱特征,并通过最大池化和全连接层进行特征整合。
- 调制分支:采用与梅尔频谱分支相似的架构,从频谱-时间调制特征中提取信息。
两个分支的特征被拼接后,输入双向长短期记忆网络(BiLSTM)和注意力层,最终通过Softmax分类器进行情感分类。
5. 实验设置
研究采用10折交叉验证,使用Adam优化器进行模型训练,损失函数为交叉熵损失。实验在干净和噪声条件下分别进行,噪声条件包括白噪声和DNS挑战噪声,信噪比(SNR)设置为5、10、15和20 dB。
主要结果
1. 干净条件下的性能
在干净条件下,仅使用梅尔频谱特征的ACRNN模型表现优于仅使用STM特征的模型。然而,结合两种特征的双流TACRNN模型在EMODB和RAVDESS数据集上均取得了与基线模型相当的性能。
2. 噪声条件下的鲁棒性
在噪声条件下,TACRNN模型表现出显著的鲁棒性。在白噪声和DNS挑战噪声下,TACRNN模型在大多数SNR条件下均优于仅使用梅尔频谱特征的模型以及其他基线模型。统计分析表明,TACRNN模型在噪声环境下的性能提升具有统计学意义。
3. 调制特征的权重分析
研究发现,TACRNN模型在训练过程中更关注某些特定的调制滤波器输出,例如速率(rate)为±2 Hz、尺度(scale)为4 cycles/20 mel-bands的滤波器。这些滤波器能够捕捉语音的谐波结构和共振峰轮廓,这些特征在噪声环境下对语音感知至关重要。
结论与意义
本文通过将频谱-时间调制特征引入神经网络模型,显著提高了SER系统在噪声环境下的鲁棒性。研究结果表明,STM特征在噪声条件下比传统的声学特征更具优势,为未来的SER研究提供了新的方向。
研究亮点
- 新颖的特征融合方法:首次将STM特征与梅尔频谱特征结合,提出了一种双流SER模型。
- 显著的鲁棒性提升:在多种噪声条件下,TACRNN模型均表现出优于基线模型的性能。
- 深入的特征分析:通过对调制特征权重的分析,揭示了模型在噪声环境下关注的关键语音特征。
应用价值
该研究为开发在真实环境中应用的鲁棒SER系统提供了理论和技术支持,有望在智能客服、情感计算等领域发挥重要作用。
其他有价值的信息
研究还指出,未来的工作可以进一步优化调制滤波器的参数选择,并探索其他声学特征与STM特征的融合方法。此外,研究计划将模型扩展到包含混响的环境,以评估其泛化能力。