分享自:

通过特征蒸馏从双耳音频中学习鲁棒的空间表示

期刊:Proc. WASPAA 2025

Holger Severin Bovbjerg(奥尔堡大学)、Jan Østergaard(奥尔堡大学)、Jesper Jensen(奥尔堡大学/Eriksholm研究中心)、Shinji Watanabe(卡内基梅隆大学)和Zheng-Hua Tan(奥尔堡大学)共同完成的研究论文《Learning Robust Spatial Representations from Binaural Audio through Feature Distillation》被收录于2025年10月12-15日召开的WASPAA 2025会议。该研究聚焦于空间音频表征学习(spatial representation learning)领域,旨在解决双耳音频(binaural audio)在噪声和混响环境下的声源到达方向估计(Direction-of-Arrival, DOA)难题。

学术背景

人类通过双耳时间差(Interaural Time Difference, ITD)和双耳强度差(Interaural Level Difference, ILD)等线索感知声源方向,但传统信号处理方法(如广义互相关GCC-PHAT)在复杂声学环境中性能显著下降。尽管深度神经网络(DNN)能提升鲁棒性,但其依赖大量标注数据。本研究提出了一种无监督预训练框架——空间特征蒸馏(Spatial Feature Distillation, SFD),通过预测干净语音的空间特征(如GCC-PHAT、IPD等)来学习鲁棒的空间表征,无需DOA标签,最终通过微调实现DOA估计。

研究流程

1. 数据构建

  • 数据集:基于LibriSpeech和LibriLight语音库,通过ARI HRTF数据库的头部相关传输函数(HRTF)和模拟房间脉冲响应(RIR)生成双耳数据。
    • 训练集:80% HRTF主体,960小时语音,在线生成含噪声(SNR -20~20 dB)和混响的样本。
    • 验证/测试集:10% HRTF主体,分别来自LibriSpeech的dev-clean和test-clean。
  • 数据增强:添加扩散环境噪声(如巴士、咖啡馆噪声),覆盖多种声学场景。

2. 预训练框架(SFD)

  • 目标:从含噪语音预测干净语音的空间特征(GCC-PHAT、IPD+ILD等)。
  • 模型架构
    • 编码器:2层因果Conformer(causal Conformer),64维嵌入,4注意力头,卷积核大小31。
    • 特征预测头:线性层输出目标特征。
  • 训练目标:最小化预测特征与真实特征的均方误差(MSE)。
  • 创新点:首次将空间特征作为无监督学习目标,避免依赖DOA标注。

3. 微调与评估

  • 任务:将预训练编码器权重迁移至DOA分类模型(5°分辨率),使用交叉熵损失。
  • 基线对比:包括传统方法(GCC-PHAT-argmax)和全监督DNN(输入GCC、STFT等)。
  • 评估指标:平均角度误差(MAE),测试不同噪声水平(-20~20 dB SNR)下的性能。

主要结果

  1. 预训练有效性

    • SFD模型在所有噪声水平下均优于基线。例如,SFD-CPSPhase模型MAE为7.05°,比最佳监督模型(GCC-PHAT-DNN,13.16°)降低46.44%。
    • 低数据场景(10分钟标注数据)下,SFD-GCC-PHAT仍保持稳定性能,而监督模型性能显著下降。
  2. 空间特征选择

    • CPS相位特征(CPS-PHAT phase)作为预训练目标时效果最佳,IPD+ILD组合因引入ILD信息反而略差。
  3. 鲁棒性分析

    • 在-20 dB SNR极端噪声下,SFD-GCC-PHAT的MAE(24.24°)远低于传统GCC-PHAT-argmax(44.47°)。

结论与价值

  1. 科学价值

    • 提出首个基于特征蒸馏的双耳空间表征学习框架,证明经典空间特征可作为有效的无监督学习目标。
    • 揭示了相位信息(如CPS-PHAT)在空间编码中的关键作用。
  2. 应用价值

    • 为助听器、机器人等需实时DOA估计的设备提供低标注成本解决方案。
    • 公开代码与数据集(GitHub: holgerbovbjerg/spatial_feature_distillation),推动领域复现与扩展。

研究亮点

  1. 方法创新

    • 无监督预训练与经典空间特征的结合,填补了多通道音频表征学习的空白。
    • 因果Conformer设计支持实时处理,适合实际应用。
  2. 工程贡献

    • 构建大规模双耳数据集BinauralLibriSpeech,解决领域数据稀缺问题。

局限与展望

当前框架依赖干净语音生成目标特征,未来将探索无干净语音的场景,并扩展至移动声源和多说话人场景。模型规模与预训练数据量的影响也值得进一步研究。


注:专业术语首次出现时标注英文原词,如“头部相关传输函数(Head-Related Transfer Function, HRTF)”。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com