作者及机构
本研究的通讯作者为The Ohio State University计算机科学与工程系的Zhong-Qiu Wang(学生会员IEEE)、Peidong Wang(研究生会员IEEE)以及Deliang Wang(IEEE Fellow)。研究发表于2020年的《IEEE/ACM Transactions on Audio, Speech, and Language Processing》第28卷。
研究领域与动机
该研究属于语音信号处理领域,聚焦于复杂声学环境(含噪声和混响)下的语音增强(speech enhancement)和鲁棒自动语音识别(robust ASR)。现代远场语音通信(如智能助手、视频会议)面临环境噪声和房间混响的干扰,传统方法依赖波束成形(beamforming)和后滤波(post-filtering),但需要精确的目标方向估计和信号统计量计算,而基于深度神经网络(DNN)的时频掩码(time-frequency masking)或映射技术能显著提升语音分离性能。
核心问题与目标
现有方法多关注幅度域(magnitude-domain)估计,而忽略相位信息的重要性。本研究提出复数谱映射(complex spectral mapping)方法,直接预测语音信号的实部(real)和虚部(imaginary)成分,并探索相位估计对多通道语音增强的影响。目标是通过复数域处理提升单通道与多通道语音增强效果,最终降低CHiME-4数据集上的词错误率(WER)。
研究提出两级DNN处理框架(图1):
- 第一级DNN:单通道复数谱映射,输入含噪混响信号的复数谱,输出直达语音信号的实部和虚部。
- 第二级DNN:多通道复数谱映射,结合第一级输出的波束成形结果(含空间信息)与原始混合信号,进一步优化复数谱估计。
关键算法
- 复数谱映射损失函数:
- 基础损失(式2):L1范数约束预测的实部/虚部与真实值的误差。
- 改进损失(式3):引入幅度域损失(magnitude-domain loss),强制复数谱的幅度一致性,提升语音质量评估指标PESQ。
- 波束成形设计:
- 时不变MVDR(式7):利用第一级DNN输出的复数谱估计信号统计量(式4-5),计算最小方差无失真响应波束成形器。
- 时变MVDR(式9):通过自适应噪声协方差矩阵(式8)实现动态波束成形,适应非平稳噪声环境。
数据集:CHiME-4语料库,包含单通道、双通道和六麦克风任务,模拟和真实录音场景,覆盖街道、公交等复杂声学环境。
- 训练数据:7,138条模拟和1,600条真实录音。
- 评估指标:语音增强采用SI-SDR(尺度不变信噪比)、PESQ(语音质量感知评估)、STOI(语音可懂度指数);ASR采用词错误率(WER)。
网络架构(图2):
- 编码器-解码器结构的时序卷积网络(TCN),结合U-Net跳跃连接和密集块(DenseBlock),参数规模约1,300万。
- 输入特征:32ms帧长、8ms帧移的STFT复数谱,512点FFT。
科学意义
- 首次将复数谱映射应用于多通道语音增强,证明相位估计对波束成形和ASR的间接增益。
- 提出自适应协方差矩阵估计方法,解决非平稳噪声环境下的波束成形鲁棒性问题。
应用价值
- 可部署于异构麦克风阵列(如不同几何形状的智能设备),适应实际场景中的硬件差异。
- 为云端语音服务提供低失真、高可懂度的前端处理方案。
(注:术语对照——MVDR: 最小方差无失真响应;STFT: 短时傅里叶变换;TCN: 时序卷积网络;DenseBlock: 密集块)