类型a
主要作者与机构及发表信息
本文的主要作者包括Nian Shao、Rui Zhou、Pengyu Wang、Xian Li、Ying Fang、Yujie Yang和Xiaofei Li。其中,Nian Shao、Pengyu Wang、Ying Fang和Yujie Yang隶属于浙江大学和西湖大学(中国杭州);Rui Zhou、Xian Li和Xiaofei Li隶属于西湖大学工程学院以及西湖高等研究院先进技术研究所(中国杭州)。该研究于2020年9月发表在《Journal of Latex Class Files》第18卷第9期。
学术背景
本研究属于语音处理领域,具体聚焦于单通道语音增强技术的开发。语音增强旨在从噪声和混响干扰中提取清晰的语音信号,以提升语音质量和自动语音识别(ASR, Automatic Speech Recognition)性能。传统方法通常在时域或线性频域进行语音增强,但这些方法可能引入语音失真或无法显著改善ASR性能。Mel频域因其更符合人类听觉感知的特点,逐渐成为语音增强的重要方向。然而,现有Mel频域方法多依赖于联合后处理步骤(如音高滤波或深度滤波),导致流程复杂且计算成本较高。为解决这些问题,本文提出了一种名为CleanMel的单通道Mel频谱增强网络,直接预测干净的Mel频谱图,并可直接用于ASR或通过神经声码器转换为波形。该研究旨在通过结合跨频带和窄频带处理机制,同时提升语音质量和ASR性能。
详细研究流程
本研究包含以下几个主要步骤:
数据准备与预处理
研究使用了合成的噪声/清晰语音对进行训练。混响语音信号通过对源语音信号与真实测量的房间脉冲响应(RIRs, Room Impulse Responses)进行卷积生成,并加入噪声信号。清晰语音信号则通过对源语音信号与RIRs的直达路径部分进行卷积生成。数据集涵盖了多种语言(中文和英文)、多种环境和设备场景,以确保模型的泛化能力。
网络架构设计
CleanMel网络的输入是带噪语音的短时傅里叶变换(STFT, Short-Time Fourier Transform)实部和虚部,输出为目标Mel频谱图。网络由输入层、交替的跨频带和窄频带块(分别在线性频域和Mel频域中处理)、Mel滤波器组和线性输出层组成。窄频带块基于Mamba模块(一种结构化状态空间序列模型)独立处理频率维度,以学习窄频带卷积特性;跨频带块通过频率卷积层和全频带线性层学习全频带依赖关系。
训练目标与损失函数
研究对比了两种学习目标:LogMel映射和Mel比率掩码(Mel Ratio Mask)。LogMel映射直接预测目标Mel频谱图,损失函数为均绝对误差(MAE, Mean Absolute Error);Mel比率掩码则通过预测掩码值应用于带噪Mel频谱图,损失函数为均方误差(MSE, Mean Squared Error)。
后端处理
在推理阶段,CleanMel网络的输出可以直接用于ASR模型,或通过神经声码器(如Vocos)转换为波形。研究还针对在线和离线处理分别进行了信号归一化调整,以确保前后端模型的信号水平一致。
实验设计
实验在五个公开数据集上进行,包括中文的Realman数据集和英文的CHiME4、REVERB、DNS I挑战赛和EARS盲测数据集。评估指标包括语音质量(如PESQ, Perceptual Evaluation of Speech Quality和DNSMOS P.835)和ASR性能(WER, Word Error Rate和CER, Character Error Rate)。
主要结果
1. 语音增强性能
- 在语音质量方面,CleanMel在多个测试集上的DNSMOS和PESQ得分均显著优于基线模型(如FullSubNet、Demucs和VoiceFixer)。例如,在高度混响的REVERB数据集中,CleanMel-L-Mask模型的DNSMOS得分为3.30(OVRL),高于VoiceFixer的2.95。
- 对比LogMel映射和Mel比率掩码,LogMel映射在低噪声场景下表现更好,而Mel比率掩码在高噪声场景下更具优势。这表明两种学习目标各有优劣,需根据应用场景选择。
ASR性能
模型规模与计算复杂度
CleanMel模型具有较小的参数量(如CleanMel-S为2.7M)和较低的计算复杂度(如CleanMel-S的FLOPs为18.1G/s),适合实时应用。
结论与意义
本研究提出了一种高效且通用的单通道Mel频谱增强网络CleanMel,能够同时提升语音质量和ASR性能。研究的主要贡献包括:
1. 提出了一种新颖的跨频带和窄频带结合的网络架构,适用于Mel频域语音增强;
2. 验证了Mel频谱图在语音处理中的关键作用,为ASR和其他任务提供了新的思路;
3. 开发了适用于在线和离线处理的信号归一化方法,增强了模型的实用性。
研究亮点
1. 重要发现:Mel频域增强相较于线性频域增强具有更低的计算复杂度和更高的语音质量;
2. 方法创新:首次将Mamba模块应用于窄频带处理,显著提升了模型的学习能力;
3. 应用价值:CleanMel不仅适用于语音增强,还可扩展至自监督语音预训练和高质量语音合成等任务。
其他有价值内容
研究还探讨了神经声码器对ASR性能的影响,发现尽管声码器可能降低Mel频谱图的保真度,但其对ASR性能的影响较小,仍可作为次优选择。此外,研究通过大规模多样化数据集验证了模型的泛化能力,为实际应用提供了重要参考。