分享自:

基于局部精细卷积和泰勒变换的单声道语音增强方法

期刊:speech communication

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


1. 主要作者与机构
本研究由Junyu Wang(天津大学智能与计算学院)、Zizhen Lin(四川大学电子信息学院)、Tianrui Wang、Meng Ge、Longbiao Wang(天津大学智能与计算学院/慧言科技(天津)有限公司)和Jianwu Dang(中国科学院深圳先进技术研究院)合作完成。研究以预印本形式提交至*Speech Communication*期刊,计划于2025年9月30日发表,预印本编号为arXiv:2509.23832v1。


2. 学术背景
研究领域:单通道语音增强(monaural speech enhancement),属于语音信号处理领域。
研究动机:当前语音增强模型面临两大挑战:
- 高性能模型通常依赖高参数量(如>64输入通道)和复杂计算,难以在资源受限场景(如嵌入式设备)部署;
- 现有方法在全局建模(如Transformer)和局部细节捕捉(如CNN)的协同优化上存在不足。
科学问题:如何设计轻量级架构,同时实现高效的全局-局部特征建模?
研究目标:提出LORT(Locally Refined Convolution and Taylor Transformer)模型,通过融合泰勒变换器(Taylor Transformer)与局部细化卷积(Locally Refined Convolution, LRC),在低参数量(0.96M)下达到SOTA性能。


3. 研究方法与流程
3.1 模型架构
LORT基于U-Net编码器-解码器结构,核心创新包括:
- 空间-通道增强泰勒注意力(SCEA)
- 分支1:泰勒多头自注意力(T-MSA),通过一阶泰勒展开近似Softmax,将计算复杂度从O(T²F²d)降至O(TFd²),其中T、F为时频维度,d为隐藏层维度。
- 分支2:空间-通道增强注意力(SCEA),通过2D池化+1D卷积(通道分支)和1D池化+5×5卷积(空间分支)增强跨通道信息交换。
- 局部细化卷积块(LRC)
- 包含卷积前馈网络(CFN)和时频密集局部卷积(TF-DLC),通过门控单元和残差连接捕获细粒度局部特征。

3.2 实验设计
- 数据集
- VCTK+DEMAND:12,396条语音,SNR 0-15dB(训练集10类噪声,测试集5类噪声)。
- DNS Challenge 2020:50,000条训练样本(SNR -5~15dB均匀分布),5,000条测试样本(固定SNR点)。
- 基线模型:对比TSTNN、DCCRN、CMGAN等6种SOTA模型,并调整MP-SENet和MUSE的参数量至1M左右(MP-SENet (s)和MUSE (l))。
- 评估指标:PESQ(语音质量)、STOI(可懂度)、MOS(CSIG/CBAK/COVL)及计算量(FLOPs)。

3.3 损失函数
复合损失函数联合优化幅度、复数谱、相位和对抗损失:
- 幅度损失(Lmag):L2距离;
- 相位损失(Lpha):结合群延迟(GD)、瞬时角频率(IAF)和瞬时相位(IP);
- 对抗损失(Lg/Ld):以PESQ为监督的判别器优化。


4. 主要结果
4.1 性能对比
- VCTK+DEMAND:LORT以0.96M参数取得PESQ 3.51、CSIG 4.74、COVL 4.23,优于参数量更大的MP-SENET(2.05M参数,PESQ 3.50)和轻量级MUSE(0.51M参数,PESQ 3.37)。
- DNS Challenge:在-5dB低信噪比下,LORT的PESQ(2.26)比MP-SENET高0.11,STOI达89.0%;在工厂噪声中,PESQ(2.55)显著优于MUSE (l)(2.25)。

4.2 消融实验
- 移除SCEA导致PESQ下降0.07,验证其全局建模价值;
- 替换LRC为普通卷积使COVL降低0.04,证明TF-DLC对局部细节的关键作用。

4.3 计算效率
LORT仅需16.83G FLOPs(2秒语音),较MP-SENET(74.29G FLOPs)降低77%。


5. 结论与价值
科学价值
- 提出T-MSA与SCEA的协同机制,解决泰勒变换器在空间注意力上的局限性;
- 通过LRC块实现局部-全局特征的高效融合,为轻量级语音增强提供新范式。
应用价值
- 适用于实时通信、助听器等资源受限场景,模型大小仅为0.96MB,可部署于边缘设备。


6. 研究亮点
- 算法创新:首次将泰勒展开与空间-通道注意力结合,降低Transformer计算复杂度;
- 性能突破:以1/2参数量超越SOTA模型,在DNS Challenge的-5dB噪声下PESQ提升5.1%;
- 开源贡献:代码与预训练模型将公开,推动轻量级语音增强研究。


7. 其他价值
- 提出的复合损失函数可推广至其他时频域任务(如去混响);
- 实验证明STFT跳幅(hop size)为100时最优,为相关研究提供参数设计参考。


此研究为语音增强领域提供了高效、可扩展的解决方案,其方法论对信号处理与深度学习交叉研究具有启发意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com