本研究由Jens Ahrens(查尔姆斯理工大学)、Hannes Helmholz(查尔姆斯理工大学)、David Lou Alon和Sebastià V. Amengual Garí(Reality Labs Research)合作完成,发表于IEEE/ACM Transactions on Audio, Speech, and Language Processing期刊2022年第30卷。
研究领域:空间音频信号处理与球谐函数(Spherical Harmonics, SH)声场重建。
研究动机:传统球谐声场分解依赖刚性球形障板(spherical baffle)和全表面分布的麦克风阵列,限制了其在增强现实(AR)头戴设备等非球形场景中的应用。本研究旨在突破这一限制,提出一种基于周向轮廓麦克风阵列的声场分解方法,支持非球形障板(如人头)并减少麦克风数量。
关键技术背景:
1. 球谐分解:通过正交基函数表示声场,支持空间音频的灵活渲染(如Ambisonics格式)。
2. 传统球形麦克风阵列(SMA):需在球形表面均匀布置至少$(N+1)^2$个麦克风($N$为分解阶数),而赤道麦克风阵列(EMA)仅需$2N+1$个麦克风,但要求严格球形几何。
核心创新:
- 非球形障板兼容性:通过校准阶段将麦克风信号投影到虚拟刚性球面(notional rigid sphere)的球谐系数,绕过对障板形状的依赖。
- 周向轮廓布局:麦克风仅需沿水平轮廓分布(如人头周长),显著降低硬件复杂度(例如18个麦克风实现8阶Ambisonics分解,传统SMA需81个)。
校准流程:
1. 数据采集:使用平面波或球面波作为校准声场,通过边界元法(Boundary Element Method, BEM)模拟或实际测量获取麦克风信号。
2. 最小二乘拟合:建立线性滤波器$\chi^{(q)}{n,m}(\omega)$,将麦克风信号映射到虚拟球面的球谐系数$\hat{\mathring{s}}^{\text{surf}}{n,m}(r,\omega)$,通过Tikhonov正则化提升鲁棒性。
仿真与实测对象:
- 仿真模型:采用BEM模拟人头(“mh”和“ct”网格)的声散射,分析不同投影半径$r$的影响。
- 原型系统:基于木质人造头(尺寸14.5 cm×21.5 cm)部署18麦克风阵列,在消声室中测量水平面360°声源响应。
评估指标:
- 校准误差:通过归一化误差$e(\omega)$分析频率与阶数依赖性(图3)。
- 双耳传输函数(BTF):对比阵列输出与参考HRTF(头相关传输函数),评估空间精度(图5-7)。
- 鲁棒性测试:包括麦克风位移($\sigma=1-30$ mm)和不同头型校准的兼容性(图9-11)。
科学价值:
- 提出首个支持非球形障板的球谐声场分解框架,扩展了Ambisonics技术在AR/VR设备中的应用场景。
- 通过周向轮廓布局降低硬件复杂度,为头戴式空间音频捕获提供实用方案。
应用价值:
- 可直接集成于AR眼镜或360°摄像机,实现第一人称视角的沉浸式音频录制。
- 开源工具链(如BEM模拟与均衡算法)支持后续研究复现与优化。
(注:术语翻译示例:球谐函数-Spherical Harmonics (SH)、双耳传输函数-Binaural Transfer Function (BTF)、边界元法-Boundary Element Method (BEM))