分享自:

基于门控卷积循环网络的复杂频谱映射用于单声道语音增强

期刊:IEEE/ACM Transactions on Audio, Speech, and Language ProcessingDOI:10.1109/TASLP.2019.2955276

这篇文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:

该研究的主要作者是Ke Tan和Deliang Wang,分别来自美国俄亥俄州立大学计算机科学与工程系。研究于2020年发表在《IEEE/ACM Transactions on Audio, Speech, and Language Processing》期刊上。

学术背景

研究的核心科学领域是语音增强(speech enhancement),特别是单声道语音增强(monaural speech enhancement)。语音信号在日常环境中常受到背景噪声的干扰,导致语音清晰度和质量下降,进而影响语音识别、说话人识别等任务。传统语音增强方法主要关注幅度谱(magnitude spectrum)的增强,而忽略相位谱(phase spectrum)的优化。然而,研究表明,相位信息对语音的感知质量至关重要。尽管相位谱缺乏明显的时频结构,但通过复谱映射(complex spectral mapping)方法,可以从噪声语音的实部和虚部谱中估计干净语音的复谱,从而同时增强幅度和相位响应。因此,本研究的目标是开发一种基于门控卷积循环网络(gated convolutional recurrent network, GCRN)的复谱映射方法,用于单声道语音增强。

研究流程

研究流程主要包括以下几个步骤:

  1. 网络架构设计
    研究提出了一种门控卷积循环网络(GCRN),用于复谱映射。该网络结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,能够同时捕捉语音的频域和时域特征。网络采用编码器-解码器结构,编码器由五个卷积层组成,解码器由五个反卷积层组成,中间通过长短期记忆(LSTM)层建模时域依赖关系。为了提升模型效率,研究还引入了分组策略(grouping strategy),将LSTM层的输入和隐藏状态分为多个组,减少层间连接数,从而降低计算复杂度。

  2. 数据处理与训练
    研究使用WSJ0 SI-84数据集进行训练和测试。训练集包含来自77位说话者的7138条语音,测试集包含来自6位未训练说话者的150条语音。噪声数据来自Sound Ideas音效库和Noisex-92数据集。训练时,语音与噪声以不同的信噪比(SNR)混合,生成320,000个训练样本。网络训练采用AMSGrad优化器,目标函数为均方误差(MSE),训练目标是从噪声语音的实部和虚部谱中估计干净语音的复谱。

  3. 基线模型对比
    研究将提出的GCRN与多种基线模型进行对比,包括基于幅度谱映射的卷积循环网络(CRN)、基于复谱映射的卷积神经网络(CNN)以及基于复理想比率掩码(complex ideal ratio mask, CIRM)和复比率掩码信号近似(complex ratio masking based signal approximation, CRM-SA)的模型。实验评估指标包括短时客观可懂度(short-time objective intelligibility, STOI)和感知语音质量评估(perceptual evaluation of speech quality, PESQ)。

  4. 实验结果与分析
    实验结果表明,提出的GCRN在STOI和PESQ指标上均显著优于基线模型。例如,在-5 dB SNR条件下,GCRN的STOI比CNN提高了13.14%,PESQ提高了0.47。此外,复谱映射方法在相位估计上也表现出色,能够显著减少相位误差,提升语音质量。

主要结果

  1. 模型性能提升
    GCRN在所有测试条件下均表现出优异的性能,尤其是在低SNR条件下,其STOI和PESQ指标显著优于其他模型。这表明GCRN能够有效捕捉语音的时频特征,并实现高质量的复谱映射。

  2. 相位估计效果
    通过复谱映射方法,GCRN能够提供更接近干净语音的相位估计。实验数据显示,与噪声相位相比,估计相位显著减少了相位误差,尤其是在低SNR条件下。例如,在-5 dB SNR条件下,相位误差平均减少了8.246°。

  3. 模型效率优化
    分组策略的引入显著降低了模型的计算复杂度和内存消耗,同时保持了模型的性能。这使得GCRN更适合在实际应用中部署,例如移动设备上的实时语音增强。

结论

研究提出了一种基于GCRN的复谱映射方法,能够同时增强语音的幅度和相位响应,显著提升语音的清晰度和质量。实验结果表明,该方法在STOI和PESQ指标上均优于现有模型,尤其是在低SNR条件下表现出色。此外,分组策略的引入进一步优化了模型的效率,使其更适合实际应用。该研究为单声道语音增强提供了一种新的解决方案,具有重要的科学价值和实际应用前景。

研究亮点

  1. 复谱映射方法的创新
    研究首次将GCRN应用于复谱映射,实现了对语音幅度和相位的联合增强,突破了传统方法仅关注幅度谱的局限。

  2. 相位估计的有效性
    通过复谱映射,研究证明了相位估计对语音质量提升的重要性,尤其是在低SNR条件下,相位估计能够显著减少相位误差,提升语音可懂度和质量。

  3. 模型效率优化
    分组策略的引入显著降低了模型的计算复杂度和内存消耗,为实时语音增强应用提供了可行的解决方案。

其他有价值的内容

研究还对比了时域语音增强方法(如AECNN-SM和FCN),结果表明GCRN在STOI指标上优于AECNN-SM,而在PESQ指标上略逊于AECNN-SM。这为未来研究提供了方向,例如结合时域和频域方法的优势,进一步提升语音增强效果。

该研究为语音增强领域提供了重要的理论和方法支持,具有广泛的应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com