分享自:

基于扩散的多通道语音增强和自监督学习的说话人验证

期刊:InterspeechDOI:10.21437/interspeech.2023-1890

本文档属于类型a(单篇原创研究论文),以下为针对中文读者的学术报告:


作者及发表信息

本研究由Sandipana Dowerah(法国洛林大学CNRS实验室)、Ajinkya Kulkarni(阿联酋MBZUAI大学)、Romain SerizelDenis Jouvet(均来自法国洛林大学)合作完成,发表于INTERSPEECH 2023会议(2023年8月,爱尔兰都柏林)。


学术背景

研究领域:本研究的核心领域为多通道语音增强(multichannel speech enhancement)说话人验证(speaker verification, SV)的交叉方向,聚焦噪声和混响环境下的语音处理。

研究动机
传统SV系统在安静或近距离场景中表现优异,但在远场多通道场景中受环境噪声、混响及空间声学干扰时性能显著下降。现有单通道语音增强方法(如GAN、VAE)难以充分利用多通道的空间信息,且缺乏与SV系统的联合优化框架。因此,本研究提出Diff-Filter——一种基于扩散概率模型(diffusion probabilistic model, DPM)的多通道语音增强方法,并结合自监督学习(self-supervised learning, SSL)提升SV系统的鲁棒性。

目标
1. 设计一种多通道DPM框架,模拟Rank-1多通道维纳滤波(MWF)的行为,实现噪声感知的语音增强;
2. 通过两阶段训练(预训练+联合优化)将Diff-Filter与ECAPA-TDNN说话人验证模型结合;
3. 提出以等错误率(EER)作为损失函数,解决无说话人标签数据的自监督学习问题。


研究方法与流程

1. Diff-Filter设计

核心架构
- 扩散解码器:基于Conv-TasNet结构,通过随机微分方程(SDE)学习正向扩散轨迹的逆过程。
- 条件网络:同样采用Conv-TasNet,输出干净语音和噪声的时域估计,作为扩散解码器的附加输入。

创新点
- 时间域处理:直接在时域进行扩散过程,保留相位信息(传统方法多为频域处理)。
- 噪声感知机制:条件网络提供的噪声估计辅助扩散解码器定向降噪。

训练流程
- 第一阶段(预训练):使用目标干净语音和噪声信号监督扩散模型收敛;
- 第二阶段(联合优化):将条件网络的估计输出与多通道噪声信号共同输入扩散解码器,生成Rank-1 MWF滤波结果。

2. 自监督学习框架

数据构造
- 使用LibriSpeech无标签语音数据,通过模拟房间脉冲响应(RIR)生成多通道噪声数据集(50,000样本)。
- 数据增强策略:速度扰动(0.91.1倍速)和1秒随机掩蔽。

损失函数设计
- EER损失:通过计算批次内余弦相似度,动态优化FAR(错误接受率)与FRR(错误拒绝率)的平衡点。
- 余弦相似度损失:区分相同/不同说话人的嵌入向量,正则化参数设为0.2。

3. 实验设置

数据集
- 训练数据:MultiSV数据集(VoxCeleb2模拟的多通道含噪语音);
- 评估数据:MultiSV的MREMRE Hard协议,以及自建Fabiolè法语数据集。

模型参数
- Conv-TasNet配置:512滤波器、256瓶颈通道、8层卷积块,采用GELU激活函数;
- ECAPA-TDNN:128维注意力模块,256维说话人嵌入。


主要结果

  1. 语音增强性能

    • Diff-Filter的SDR(信号失真比)达6.93,接近Oracle Rank-1 MWF(7.24),优于基线Conv-TasNet(6.12)。
    • SIR(信号干扰比)提升至24.37,表明其空间噪声抑制能力更强。
  2. 说话人验证改进

    • 在MultiSV的MRE Hard协议上,Diff-Filter+SSL将EER从基线4.52%降至3.19%,接近理想滤波条件(3.12%)。
    • Fabiolè数据集上,EER从9.23%(未处理)降至6.27%。
  3. 自监督学习的有效性

    • EER损失使模型在无标签数据上实现了与有监督学习相当的嵌入区分性,验证了其泛化能力。

结论与价值

科学价值
1. 首次将扩散模型与多通道语音增强结合,提出噪声感知的时域扩散方法;
2. 开创性地将EER作为自监督损失函数,解决了无标签数据的优化问题。

应用价值
- 适用于远场会议、智能家居等复杂声学场景的说话人识别;
- 为其他语音任务(如分离、语音识别)提供可迁移的增强框架。


研究亮点

  1. 方法创新:Diff-Filter融合DPM与多通道信号处理,优于传统单通道生成模型;
  2. 训练策略:两阶段训练+SSL框架,显著提升噪声鲁棒性;
  3. 可扩展性:算法可适配不同麦克风阵列配置,具有工程落地潜力。

未来方向:进一步探索Diff-Filter在语音分离、说话人日志等任务中的应用。


注:本文涉及术语首次出现时均标注英文原名,如扩散概率模型(diffusion probabilistic model, DPM)、等错误率(equal error rate, EER)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com