分享自:

全子网:一种用于实时单通道语音增强的全频带和子带融合模型

期刊:Interspeech

全频带与子频带融合的实时单通道语音增强模型:FullSubNet研究

作者与发表信息

本研究的核心作者团队由Xiang Hao(西湖大学/西湖高等研究院)、Xiangdong Su(内蒙古大学)、Radu Horaud(法国Inria Grenoble Rhône-Alpes)及Xiaofei Li(西湖大学/西湖高等研究院)组成。研究以论文形式发布于预印本平台arXiv(版本号2010.15508v2),并于2021年1月24日更新。

学术背景与研究动机

语音增强(Speech Enhancement)是信号处理领域的核心课题,旨在通过算法抑制噪声并提升语音质量。传统方法受限于噪声类型假设,而深度学习技术通过数据驱动方式显著提升了系统性能。现有频域方法可分为两类:
1. 全频带模型(Full-band Model):处理完整频谱,擅长捕捉全局谱上下文和跨频带依赖,但难以建模信号平稳性(Signal Stationarity)和局部谱模式。
2. 子频带模型(Sub-band Model):独立处理单个频率及其邻域,擅长利用信号平稳性和局部特征,但无法建模全局信息。

本研究提出FullSubNet,首次通过序列化连接全频带与子频带模型,结合联合训练策略实现优势互补,目标是为实时单通道语音增强提供更优解决方案。

研究方法与流程

1. 模型架构设计

FullSubNet采用级联结构(图1):
- 全频带模块(Full-band Model):输入为整帧频谱幅度特征(维度F),经两层单向LSTM(512隐藏单元)和线性层处理,输出与输入同维的频谱嵌入向量。
- 子频带模块(Sub-band Model):输入为当前频率点及其邻域(2n+1个点)与全频带模块输出的拼接(维度2n+2),经两层共享参数的LSTM(384隐藏单元)处理,输出复杂理想比值掩码(Complex Ideal Ratio Mask, CIRM)。
- 关键技术
- 动态混合训练:每轮训练前随机混合75%的语音与噪声(SNR -5~20 dB),并添加房间脉冲响应(RIR)模拟混响。
- 延迟机制:允许使用未来2帧(32ms)信息,满足实时性要求(DNS Challenge标准)。

2. 实验设置

  • 数据集:基于Interspeech 2020 DNS Challenge数据集(500小时纯净语音+180小时噪声),测试集包含300条含噪/混响语音。
  • 信号处理:STFT窗长512点(32ms),步长256点,汉宁窗。
  • 基线模型
    • 纯子频带模型(Sub-band Model [17]):DNS Challenge实时赛道第4名。
    • 纯全频带模型:3层LSTM(512单元),参数量6M。
    • 对比方法:NSNet、DTLN、Conv-TasNet等5种SOTA模型。

3. 评估指标

采用客观指标:
- 宽带/窄带PESQ(语音质量感知评估)
- STOI(语音可懂度)
- SI-SDR(信噪比改善)

主要研究结果

1. 模型性能对比

表1数据显示:
- FullSubNet vs 子频带模型:在混响条件下,WB-PESQ从2.650提升至2.969,STOI从90.53%升至92.62%,证明全频带信息显著提升全局谱恢复能力。
- FullSubNet vs 全频带模型:参数量更少(5.6M vs 6M),但SI-SDR提高1.7dB(无混响),验证子频带模块对信号平稳性建模的有效性。
- 与SOTA对比:FullSubNet超越DNS Challenge实时赛道冠军DCCRN(WB-PESQ 3.077→3.473),且推理速度仅10.32ms/帧(满足实时需求)。

2. 关键发现

  • 互补性验证:全频带信息改善低频段SNR极差频点的恢复,子频带信息增强混响环境下的局部谱跟踪。
  • 实时性保障:通过限制未来帧数(τ=2)和参数量优化,模型在2.4GHz CPU上实现实时处理。

研究价值与创新点

科学价值

  1. 理论层面:首次证明全频带与子频带特征在语音增强中存在互补性,提出”全局-局部协同优化”框架。
  2. 方法创新:设计序列化融合架构与动态联合训练策略,为多尺度特征融合提供新范式。

应用价值

  • 工程落地:开源代码与预训练模型(GitHub公开)可直接应用于实时通信、助听器等场景。
  • 挑战赛影响:性能超越Interspeech 2020 DNS Challenge所有参赛方案,确立新基准。

研究亮点

  1. 融合架构创新:通过级联而非并联结构实现信息互补,避免参数冗余。
  2. 可解释性设计:子频带模块显式建模信号平稳性,与人类听觉机理一致。
  3. 轻量化实现:参数量仅为Non-real-time冠军PoCoNet的1/9,但客观指标更优。

其他贡献

  • 数据策略:动态混合训练使模型接触超5000小时异构数据,提升泛化性。
  • 标准化方法:提出全频带与子频带独立归一化策略,加速模型收敛。

本研究为实时语音增强提供了兼顾性能与效率的新思路,其融合框架可扩展至其他时频域信号处理任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com