本文属于类型a:单项原创研究的学术报告。
本文题为《Neural Ambisonics Encoding for Compact Irregular Microphone Arrays》,由 Mikko Heikkinen(Nokia Technologies)、Archontis Politis 和 Tuomas Virtanen(Tampere University) 联合撰写。文章发表于 2024 年 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。
Ambisonics 是一种设备无关的空间音频表示形式,广泛应用于虚拟现实(VR)、增强现实(AR)等沉浸式媒体。通过将麦克风阵列信号转换为 Ambisonics 表示,可实现设备间的兼容性,并在声音分离、波束成形等领域提供通用的数据格式。然而,现有 Ambisonics 编码方法通常设计用于规则球形麦克风阵列(Spherical Microphone Arrays, SMAs),难以适应不规则阵列。
许多消费设备(如手机、头戴显示器)尽管配备了麦克风阵列,但其主要目的是降噪或回声消除,未优化用于空间音频捕捉。这些设备麦克风布局不规则,传统基于最小二乘的 Ambisonics 编码方法性能受限。因此,开发一种能够适应不规则麦克风阵列的 Ambisonics 编码方法是一个具有重要实际价值的研究课题。
本文旨在提出一种基于深度神经网络(Deep Neural Network, DNN)的 Ambisonics 编码方法,专为不规则几何阵列设计,并验证其在多声源、混响环境下的性能。研究重点包括: - 使用深度学习模型(U-Net)估计复杂的编码矩阵。 - 引入频率特定的预处理层和新型损失函数,提升模型性能。 - 在规则和不规则麦克风阵列上验证模型。
研究通过以下步骤展开: 1. 麦克风阵列和音频场景建模:在规则和不规则阵列上模拟空间音频场景。 2. 基于深度学习的模型设计:构建一个结合频率预处理层和 U-Net 结构的深度学习模型。 3. 损失函数设计:提出一种复合损失函数,结合均值绝对误差(Mean Absolute Error, MAE)、能量保持和相干性三部分。 4. 实验验证:在不同声源数量与混响环境中比较新模型与传统编码器的性能。
研究选用两个麦克风阵列: 1. 规则四面体阵列:直径 9 厘米,由四个等距麦克风构成。 2. 不规则矩形阵列:模拟手机形状,麦克风位置分布不对称。
两种阵列均假设为理想的全向麦克风,无散射影响。
模型采用 Adam 优化器训练,学习率为 5e-5,批量大小为 32。
研究使用以下指标评估模型性能: 1. 幅值误差:量化频谱误差。 2. 空间相干性:评估 Ambisonics 通道的方向性重建。
本文提出了一种基于深度学习的不规则麦克风阵列 Ambisonics 编码方法,核心贡献包括: 1. 引入频率特定预处理层和复合损失函数,增强了模型性能。 2. 在规则与不规则阵列上的验证表明,本文方法在频谱误差与空间相干性方面均优于传统编码器。 3. 模型可在空间混响环境中适应复杂声源分布,表明其对真实场景的良好适用性。