本文属于类型a,即单篇原创研究的学术报告。以下是详细的内容介绍:
一、研究作者与机构
本研究的主要作者包括Feifei Xiong、Weiguang Chen、Pengyu Wang、Xiaofei Li和Jinwei Feng。他们分别来自阿里巴巴集团的Hummingbird Audio Lab和西湖大学(Westlake University & Westlake Institute for Advanced Study)。该研究发表于2022年9月18日至22日在韩国仁川举行的INTERSPEECH 2022会议上。
二、学术背景
本研究的主要科学领域是单通道语音增强(monaural speech enhancement),旨在从失真的语音信号中恢复出清晰的目标语音,以提高语音的感知质量和可懂度。这在免提语音通信和助听系统中尤为重要,尤其是在仅有一个远距离麦克风可用的情况下。尽管过去几十年在语音增强领域取得了显著进展,尤其是深度学习技术的引入,但现实应用仍然面临诸多挑战,如加性噪声、房间混响、计算效率、算法延迟以及设备上的模型大小限制。
近年来,针对这些问题的先进技术不断涌现,例如Reverb Challenge和DNS Challenge分别推动了语音去混响和去噪领域的最新技术发展。然而,单通道去混响(即对房间脉冲响应进行逆滤波)仍无最优解决方案,而深度学习技术则通过非线性映射混响频谱到干净频谱来缓解混响效应。语音去噪通常通过在时频域(time-frequency, TF)进行监督学习,将带噪语音的频谱特征映射到干净语音目标。
本研究的目标是提出一种改进的子带神经网络(subband neural network),名为STSubNet,用于在线单通道场景下的联合语音去噪和去混响。STSubNet通过二维卷积网络与双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)相结合,充分利用语音频谱的时频感受野(spectro-temporal receptive fields, STRFs),从而进一步区分目标语音成分与噪声和混响等干扰。
三、研究流程
1. 模型设计
STSubNet的核心设计包括一个STRF提取器和一个子带网络(SubNet)。STRF提取器通过二维卷积网络从语音频谱中提取时频上下文信息,作为SubNet的输入。SubNet则通过两个堆叠的单向LSTM层和一个全连接层生成复数的理想比率掩码(Complex Ideal Ratio Mask, CIRM)。
STRF提取器的设计灵感来源于听觉科学的研究,即不同哺乳动物的初级听觉皮层神经元对特定的时频感受野敏感。STSubNet通过二维卷积网络和BiLSTM模块分别提取频谱和时间上下文信息,并利用BiLSTM沿频带扩展STRF信息。这种设计使得模型能够在单个训练阶段和一对学习目标下同时完成去噪和去混响任务。
损失函数与训练
本研究采用信号失真比(Signal-to-Distortion Ratio, SDR)作为损失函数,通过Adam优化器进行模型训练。与传统的时频域损失函数相比,SDR损失在时间域中计算,能够更有效地提升模型的性能。
训练数据来自DNS Challenge,包括500小时的干净语音和180小时的噪声数据。混响时间(Reverberation Time, RT)在0.2至2.0秒之间,房间体积在90至450立方米之间。噪声信号的信噪比(Signal-to-Noise Ratio, SNR)在-5至20 dB之间随机采样。
在线推理
为了适应在线推理的需求,本研究采用累积归一化方法对输入信号进行处理。具体而言,每个时间帧的归一化均值通过滑动窗口内的可用帧计算得出,以确保训练和推理过程中的归一化策略一致。
实验设置
实验在模拟测试集和公开测试集上进行。模拟测试集包括来自NoiseX-92的未训练噪声和Reverb Challenge的混响条件。公开测试集则使用DNS Challenge的非盲测试集和Reverb Challenge的评估测试集。
评估指标包括宽带语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ)、短时客观可懂度(Short-Time Objective Intelligibility, STOI)、信号失真比(SI-SDR)和归一化语音混响调制能量比(Speech-to-Reverberation Modulation Energy Ratio, SRMR)。
四、主要结果
1. STRF提取器的效果
实验结果表明,STSubNet在去噪和去混响任务中均表现出显著的性能提升。例如,在SNR为-6 dB和远距离麦克风的挑战性场景下,STOI分别提高了0.1和0.12。此外,长时间上下文(temporal context)对去混响任务尤为重要,而频谱上下文(spectral context)对混响严重的测试集影响更大。
通过逐一剔除模块的实验,进一步验证了BiLSTM在STSubNet中的重要作用,而时间上下文对去混响任务的贡献更为显著。
五、结论
本研究提出的STSubNet是一种新颖的子带网络,通过引入高效的时频感受野提取器,实现了在线单通道场景下的联合语音去噪和去混响。实验结果表明,STSubNet在去噪和去混响任务上均优于其他子带网络变体,并与最先进的模型具有可比性。此外,STSubNet可以通过减少网络参数设计为轻量级版本,同时保持其竞争力。
六、研究亮点
1. 重要发现
STSubNet在去噪和去混响任务上均表现出显著的性能提升,尤其是在低信噪比和严重混响的挑战性场景下。
2. 方法创新
STSubNet通过二维卷积网络和BiLSTM模块提取时频感受野信息,为子带网络提供了更具区分性的输入。
3. 应用价值
STSubNet的轻量级设计使其适用于实时应用,如免提语音通信和助听系统。
七、其他有价值的内容
本研究的代码和示例可在GitHub上获取,为后续研究和应用提供了便利。此外,未来研究可以进一步探索如何建模早期反射,以提升去混响效果。