本研究的核心作者团队由Xiang Hao(西湖大学/西湖高等研究院)、Xiangdong Su(内蒙古大学)、Radu Horaud(法国Inria Grenoble Rhône-Alpes)及Xiaofei Li(西湖大学/西湖高等研究院)组成。研究以论文形式发布于预印本平台arXiv(版本号2010.15508v2),并于2021年1月24日更新。
语音增强(Speech Enhancement)是信号处理领域的核心课题,旨在通过算法抑制噪声并提升语音质量。传统方法受限于噪声类型假设,而深度学习技术通过数据驱动方式显著提升了系统性能。现有频域方法可分为两类:
1. 全频带模型(Full-band Model):处理完整频谱,擅长捕捉全局谱上下文和跨频带依赖,但难以建模信号平稳性(Signal Stationarity)和局部谱模式。
2. 子频带模型(Sub-band Model):独立处理单个频率及其邻域,擅长利用信号平稳性和局部特征,但无法建模全局信息。
本研究提出FullSubNet,首次通过序列化连接全频带与子频带模型,结合联合训练策略实现优势互补,目标是为实时单通道语音增强提供更优解决方案。
FullSubNet采用级联结构(图1):
- 全频带模块(Full-band Model):输入为整帧频谱幅度特征(维度F),经两层单向LSTM(512隐藏单元)和线性层处理,输出与输入同维的频谱嵌入向量。
- 子频带模块(Sub-band Model):输入为当前频率点及其邻域(2n+1个点)与全频带模块输出的拼接(维度2n+2),经两层共享参数的LSTM(384隐藏单元)处理,输出复杂理想比值掩码(Complex Ideal Ratio Mask, CIRM)。
- 关键技术:
- 动态混合训练:每轮训练前随机混合75%的语音与噪声(SNR -5~20 dB),并添加房间脉冲响应(RIR)模拟混响。
- 延迟机制:允许使用未来2帧(32ms)信息,满足实时性要求(DNS Challenge标准)。
采用客观指标:
- 宽带/窄带PESQ(语音质量感知评估)
- STOI(语音可懂度)
- SI-SDR(信噪比改善)
表1数据显示:
- FullSubNet vs 子频带模型:在混响条件下,WB-PESQ从2.650提升至2.969,STOI从90.53%升至92.62%,证明全频带信息显著提升全局谱恢复能力。
- FullSubNet vs 全频带模型:参数量更少(5.6M vs 6M),但SI-SDR提高1.7dB(无混响),验证子频带模块对信号平稳性建模的有效性。
- 与SOTA对比:FullSubNet超越DNS Challenge实时赛道冠军DCCRN(WB-PESQ 3.077→3.473),且推理速度仅10.32ms/帧(满足实时需求)。
本研究为实时语音增强提供了兼顾性能与效率的新思路,其融合框架可扩展至其他时频域信号处理任务。