这篇文档属于类型a,即一篇关于单个原创研究的学术报告。以下是针对该研究的详细报告。
作者及研究机构
本研究的作者是王青,其所属机构为中国科学技术大学(University of Science and Technology of China)。该研究完成于2018年5月,导师为刘庆峰教授和杜俊副教授。
学术背景
本研究的主要科学领域为信息与通信工程(Information and Communication Engineering),具体研究方向为基于深层神经网络(Deep Neural Network, DNN)的多目标学习和融合的语音增强(Speech Enhancement)。语音增强技术的主要目标是从带噪语音中提取干净的原始语音,以提高语音质量和可懂度。近年来,随着智能终端功能和云端计算能力的提升,语音成为人机交互中不可或缺的媒介。然而,在日常生活或军事通信中,语音信号常常受到各种噪声的干扰,这不仅影响语音质量,还增加了后续语音识别和语音端点检测的难度。传统单声道语音增强算法在面对非平稳噪声时表现不佳,而深度学习技术的突破为语音增强提供了新的解决方案。本研究旨在通过深层神经网络探索语音和噪声之间的复杂非线性关系,解决低信噪比下语音可懂度不足及非平稳噪声抑制的问题,并设计出适用于实时应用的紧凑和低延时模型。
研究流程
研究分为多个阶段,以下是详细的工作流程:
1. 输入特征的设计与性能研究
基于现有的DNN语音增强算法框架,研究不同输入特征(如对数功率谱(Log Power Spectra, LPS)和幅度谱(Amplitude Spectra, AS))对系统性能的影响。通过特征拼接(Feature Concatenation)和输出层后处理,研究回归深层神经网络的学习行为,以提高低信噪比下的语音可懂度。
改进的动态噪声估计方法
针对宽带(16kHz)语音数据中噪声不匹配的问题,提出一种改进的动态噪声估计方法。该方法利用双绝对门限、平滑策略以及与静态噪声融合,使全频带噪声估计更准确。同时,结合噪声的子带特征和理想比率掩蔽值(Ideal Ratio Mask, IRM)进行联合感知训练,增强模型对不可见噪声的泛化能力。
多目标学习和融合的语音增强框架
提出基于DNN的多目标学习和融合框架,包括多目标学习(Multi-Objective Learning)和多目标融合(Multi-Objective Ensembling)两个阶段。在多目标学习阶段,设计DNN模型学习辅助信息,包括LPS、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient, MFCC)和Gammatone频率倒谱系数(Gammatone Frequency Cepstral Coefficient, GFCC)及其对应的干净语音、动态噪声和IRM。在多目标融合阶段,将前一阶段学习的辅助信息与原始带噪信号作为网络输入,在输出层同时预测LPS、MFCC和GFCC对应的干净语音和IRM信息。最后对两阶段DNN预测的干净语音进行后处理融合。
基于最大似然估计的IRM目标函数优化
在概率分布框架下,假设IRM预测误差服从广义高斯分布(Generalized Gaussian Distribution, GGD),采用最大似然估计(Maximum Likelihood Estimation, MLE)方法优化DNN参数。通过分析不同形状参数下的IRM预测误差分布,选择最优参数,使模型性能显著提升,缓解语音失真并保留更多高频信息。
主要结果
1. 输入特征研究
实验表明,LPS和AS特征的互补性显著提升了语音质量和可懂度。在13种不可见噪声类型上,基于特征拼接的DNN系统在平均语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ)和短时语音可懂度(Short-Time Objective Intelligibility, STOI)指标上均优于单一特征系统。
改进的动态噪声估计
改进的动态噪声估计方法在全频带噪声估计上表现出更高的准确性。在不可见噪声类型下,该方法显著提高了PESQ和STOI指标,增强了对非平稳噪声的抑制能力。
多目标学习和融合框架
该框架在较小的模型复杂度和低延时情况下,取得了优于传统DNN和长短期记忆网络(Long Short-Term Memory, LSTM)的性能。实验结果表明,该框架在15种不可见噪声类型上的PESQ、STOI、信噪比(Signal-to-Noise Ratio, SNR)和对数谱距离(Log Spectral Distance, LSD)指标上均有显著提升。
基于最大似然估计的IRM优化
相比最小均方误差(Minimum Mean Square Error, MMSE)准则,基于MLE的方法在所有客观指标上均有显著提升,特别是在高频部分的语音信息保留上表现更优。
结论
本研究提出了一种基于深层神经网络的多目标学习和融合语音增强框架,有效解决了低信噪比下语音可懂度不足及非平稳噪声抑制的问题。通过改进的动态噪声估计方法和基于最大似然估计的IRM目标函数优化,显著提升了语音增强的性能。该框架具有紧凑和低延时的特点,适用于实时语音应用,具有重要的科学和应用价值。
研究亮点
1. 提出了基于多目标学习和融合的语音增强框架,显著提升了语音增强的性能。
2. 改进的动态噪声估计方法提高了噪声估计的准确性,增强了对非平稳噪声的抑制能力。
3. 基于最大似然估计的IRM目标函数优化,缓解了语音失真并保留了更多高频信息。
4. 设计出适用于实时应用的紧凑和低延时模型,具有重要的实际应用价值。
其他有价值的内容
本研究还提供了详细的实验配置和结果分析,包括不同噪声类型下的性能对比和模型复杂度优化策略,为后续研究提供了重要的参考。