分享自:

基于深度学习的不规则麦克风阵列神经Ambisonics编码

期刊:IEEE ICASSP 2024DOI:701979-8-3503-4485-1/24

本文属于类型a:单项原创研究的学术报告。


研究综述:基于深度学习的不规则麦克风阵列的Ambisonics编码

作者及发表信息

本文题为《Neural Ambisonics Encoding for Compact Irregular Microphone Arrays》,由 Mikko Heikkinen(Nokia Technologies)Archontis PolitisTuomas Virtanen(Tampere University) 联合撰写。文章发表于 2024 年 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)


背景与研究目的

Ambisonics技术与空间音频的需求

Ambisonics 是一种设备无关的空间音频表示形式,广泛应用于虚拟现实(VR)、增强现实(AR)等沉浸式媒体。通过将麦克风阵列信号转换为 Ambisonics 表示,可实现设备间的兼容性,并在声音分离、波束成形等领域提供通用的数据格式。然而,现有 Ambisonics 编码方法通常设计用于规则球形麦克风阵列(Spherical Microphone Arrays, SMAs),难以适应不规则阵列。

不规则麦克风阵列的挑战

许多消费设备(如手机、头戴显示器)尽管配备了麦克风阵列,但其主要目的是降噪或回声消除,未优化用于空间音频捕捉。这些设备麦克风布局不规则,传统基于最小二乘的 Ambisonics 编码方法性能受限。因此,开发一种能够适应不规则麦克风阵列的 Ambisonics 编码方法是一个具有重要实际价值的研究课题。

本研究的目标

本文旨在提出一种基于深度神经网络(Deep Neural Network, DNN)的 Ambisonics 编码方法,专为不规则几何阵列设计,并验证其在多声源、混响环境下的性能。研究重点包括: - 使用深度学习模型(U-Net)估计复杂的编码矩阵。 - 引入频率特定的预处理层和新型损失函数,提升模型性能。 - 在规则和不规则麦克风阵列上验证模型。


研究方法与流程

研究总体设计

研究通过以下步骤展开: 1. 麦克风阵列和音频场景建模:在规则和不规则阵列上模拟空间音频场景。 2. 基于深度学习的模型设计:构建一个结合频率预处理层和 U-Net 结构的深度学习模型。 3. 损失函数设计:提出一种复合损失函数,结合均值绝对误差(Mean Absolute Error, MAE)、能量保持和相干性三部分。 4. 实验验证:在不同声源数量与混响环境中比较新模型与传统编码器的性能。

麦克风阵列

研究选用两个麦克风阵列: 1. 规则四面体阵列:直径 9 厘米,由四个等距麦克风构成。 2. 不规则矩形阵列:模拟手机形状,麦克风位置分布不对称。

两种阵列均假设为理想的全向麦克风,无散射影响。

数据生成与处理

  • 使用 Pyroomacoustics 工具模拟房间反射声场。
  • 合成包含 1-3 个声源的 10,000 个音频场景,房间尺寸随机,声源与麦克风位置随机分布。
  • 数据分为训练集(80%)、验证集(10%)和测试集(10%)。

深度学习模型

  1. U-Net架构:引入频率特定预处理层以捕获频率相关行为。
  2. 复合损失函数
    • MAE:衡量预测与参考 Ambisonics 信号的幅值误差。
    • 能量保持:确保总能量与参考一致。
    • 相干性:评估方向性模式的重现质量。

模型采用 Adam 优化器训练,学习率为 5e-5,批量大小为 32。


研究结果

性能评估

研究使用以下指标评估模型性能: 1. 幅值误差:量化频谱误差。 2. 空间相干性:评估 Ambisonics 通道的方向性重建。

结果分析

  • 在规则四面体阵列中,传统编码器仅在 200Hz-700Hz 范围内表现较优,而本文模型在低频段表现稳定。
  • 对于不规则阵列,传统编码器在所有频段均表现不佳,而本文模型显著提升了频谱和相干性指标,特别是在高频段超越了传统方法的极限。
  • 总体上,本文模型有效扩展了适用频率范围,并克服了传统方法在不规则阵列上的局限。

研究结论

本文提出了一种基于深度学习的不规则麦克风阵列 Ambisonics 编码方法,核心贡献包括: 1. 引入频率特定预处理层和复合损失函数,增强了模型性能。 2. 在规则与不规则阵列上的验证表明,本文方法在频谱误差与空间相干性方面均优于传统编码器。 3. 模型可在空间混响环境中适应复杂声源分布,表明其对真实场景的良好适用性。


研究意义与展望

科学价值

  • 本研究为 Ambisonics 编码的深度学习应用开辟了新方向。
  • 提供了一种高效的编码方法,填补了不规则麦克风阵列领域的技术空白。

应用前景

  • 可推广至智能手机、头戴显示设备等消费电子,提升其空间音频处理能力。
  • 有助于 VR/AR 等沉浸式应用的发展。

未来研究方向

  • 考察设备外壳散射和麦克风指向性对编码性能的影响。
  • 在更复杂的声学环境与多样化信号下验证模型鲁棒性。

研究亮点

  1. 首次在不规则麦克风阵列上实现基于 DNN 的 Ambisonics 编码。
  2. 提出独特的复合损失函数,结合能量保持与相干性优化。
  3. 拓展了 Ambisonics 编码的高频应用范围。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com