分享自:

基于图神经网络的多通道语音增强新方法

期刊:ieee/acm transactions on audio, speech, and language processingDOI:10.1109/taslp.2024.3352259

基于图神经网络的多通道语音增强新方法学术报告

作者及机构
本研究的核心团队来自越南河内科技大学(Hanoi University of Science and Technology)电气与电子工程学院,包括Hoang Ngoc Chau、Tien Dat Bui、Huu Binh Nguyen、Thanh Thi Hien Duong及通讯作者Quoc Cuong Nguyen。合作单位还包括越南军队通信集团(Viettel Group)网络安全中心及河内矿业地质大学(Hanoi University of Mining and Geology)。研究发表于2024年的《IEEE/ACM Transactions on Audio, Speech, and Language Processing》(第32卷)。

学术背景

研究领域与动机
多通道语音增强(Multi-Channel Speech Enhancement, MCSE)是语音信号处理的核心课题,旨在通过麦克风阵列捕捉的时空信息分离目标语音与噪声。传统方法如波束成形(Beamforming)依赖线性空间滤波,但需依赖复杂的声学参数(如相对传递函数RTF、到达方向DOA)估计,在混响或多声源环境中表现受限。近年来,深度学习(如CNN、RNN)虽提升了性能,但未充分挖掘空间与频谱的联合特征。为此,本研究首次提出将图神经网络(Graph Neural Networks, GNNs)用于MCSE任务,通过构建隐式空间-频谱图模型,实现了更灵活的信息传递。

目标与科学问题
研究旨在解决两个关键问题:
1. 如何通过图结构建模多通道语音的时空相关性?
2. 能否开发一种端到端系统,同时优化空间滤波与频谱掩蔽?

研究流程与方法

1. 系统框架设计
研究提出时态图卷积网络(Temporal Graph Convolutional Network, TGCN),其核心流程如下:
- 输入处理:多通道信号经短时傅里叶变换(STFT)转为时频表示,第一通道设为参考麦克风。
- 编码器-解码器结构:采用复数卷积层(Complex Conv2D)处理实部和虚部,通过下采样压缩分辨率,生成潜在嵌入空间。
- 图处理模块(GPM):将潜在空间的每个数据点视为图节点,构建动态有向图(K近邻连接),通过12层GCN聚合节点特征。创新性引入位置编码(Positional Encoding)以区分节点位置,避免过平滑问题。

2. 实时系统扩展
针对在线任务,提出因果图卷积(Causal GCN)
- 仅利用当前帧及前K-1帧(K=64)构建时序图,通过膨胀率(Dilation Rate)逐步扩大感受野。
- 特征转换模块(Feature Transformation Block)保留节点多样性,提升深层GCN的稳定性。

3. 损失函数
联合优化以下目标:
- 尺度不变信噪比(SI-SNR):衡量时域语音质量。
- 复数理想比率掩蔽(Complex Ideal Ratio Mask, CIRM)的均方误差:指导频谱掩蔽学习。

主要结果

1. 图卷积的有效性验证
- 对比实验中,TGCN在PESQ(2.482 vs. 2.176)、STOI(0.915 vs. 0.891)等指标上显著优于基线模型(如LSTM-IPD、GNN-based)。
- 可视化显示,GCN节点倾向于聚集在相同频带,验证了谐波结构的语义关联性(图5)。

2. 实时系统性能
- TGCN在Interspeech 2021 ConferencingSpeech挑战数据集上优于现有最优实时方法(如COSPA),PESQ提升0.145分,MACs仅7.11M,RTF为0.32(Intel i7单线程)。

3. 消融实验
- 节点聚合数K:K=30时性能饱和,进一步增加无效且增加计算负担。
- 时序核大小:K=64时最佳,过大的K导致噪声传播(表II)。

结论与意义

理论价值
- 首次将GNN引入MCSE,证明图结构可有效建模时空-频谱联合特征,为语音处理提供新范式。
- 提出的TGCN框架突破了传统波束成形的线性限制,实现了端到端非线性空间滤波。

应用价值
- 系统在视频会议、助听器等远场语音场景中表现优异,PESQ达2.594(非实时版),接近人类听觉阈值。
- 轻量版TGCN-Lite(参数7.11M)适合嵌入式设备部署。

创新亮点

  1. 方法学创新:首创时空图卷积架构,融合复数域编码与动态图构建。
  2. 性能突破:在标准数据集上超越所有基线模型,尤以实时任务优势明显。
  3. 可扩展性:框架支持广义语音处理任务(如分离、去混响)。

其他贡献

  • 公开了基于Interspeech 2021挑战赛的750小时训练集,涵盖多种麦克风阵列与声学场景,推动领域基准标准化。
  • 代码与模型结构已开源,助力后续研究复现。

(注:专业术语如STFT(短时傅里叶变换)、GCN(图卷积网络)等首次出现时标注英文,后续直接使用中文译名。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com