分享自:

基于参数化的任意麦克风阵列的Ambisonic编码

期刊:IEEE/ACM Transactions on Audio, Speech, and Language ProcessingDOI:10.1109/taslp.2022.3182857

科学论文综合报告(类型a: 原始研究报告)

研究标题

《Parametric Ambisonic Encoding of Arbitrary Microphone Arrays》

主要作者及研究机构

  • 作者:Leo McCormack, Archontis Politis, Raimundo Gonzalez, Tapio Lokki, Ville Pulkki
  • 机构
    • Aalto University, Department of Signal Processing and Acoustics, Finland
    • Tampere University, Department of Information Technology and Communication Sciences, Finland
  • 期刊:IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • 发表时间:2022年6月14日

研究背景

领域与动机
该研究涉及空间音频领域,特别是音频捕获与播放技术的改进。随着增强现实(AR)、虚拟现实(VR)以及沉浸式音频等领域的快速发展,空间音频的采集和再现成为了关键技术需求之一。Ambisonics是一种独立于设备的场景音频框架,在灵活性和便携性方面具有显著优势,特别是在头部跟踪应用中。

研究现状与问题 - 常规的基于线性信号的Ambisonic编码方法在非规则麦克风阵列几何结构下表现较差,特别是频率范围和空间分辨率方面受到限制。 - 大多数商用球形麦克风阵列(SMAs)仅能支持有限的编码阶数(通常为一阶或二阶)。 - 现有的方法主要集中在解码阶段,而编码阶段的信号依赖方法尚未得到充分开发。

研究目标 提出一种通用的信号依赖参数化编码方法,适用于任意麦克风阵列几何结构,旨在实现更高阶、更宽频带的Ambisonic信号编码,以提升空间分辨率和感知效果。


研究方法

工作流程
研究分为以下几个步骤: 1. 阵列描述与建模: - 研究了一种非规则麦克风阵列,由7个传感器组成,安装于一个模拟增强现实头戴设备上。 - 使用边界元法(Boundary Element Method)进行频域仿真。

  1. 参数化信号模型

    • 声场通过多信号模型进行表示,包含方向性声源信号、扩散噪声和传感器噪声。
    • 采用空间滤波分离声源信号和方向性环境信号。
  2. 信号分析

    • 使用子空间分析方法估计声源的数目及其到达方向(DOA)。
    • 引入了空域白化操作以提高分析性能。
  3. 信号合成

    • 声源信号通过方向性滤波提取并编码为高阶Ambisonic信号。
    • 环境信号通过平面波分解后再编码为目标阶数的Ambisonic信号。
  4. 评估与验证

    • 使用合成场景生成仿真数据进行客观评估。
    • 通过主观听感测试验证感知性能。

研究结果

客观评估

  1. 分析准确性

    • 在直达-扩散比(DDR)较高时,声源数目和方向估计具有较高的准确性。
    • 在纯扩散场条件(DDR = 0 dB)下,声源检测性能下降。
  2. 空间音频指标

    • 比较了参数化编码与线性编码的双耳解码性能。
    • 参数化编码在非纯扩散场中表现出显著优于线性编码的结果,特别是在空间相干性和双耳信号强度差异的重现上。

主观测试

  • 空间感知
    • 参数化编码生成的Ambisonic信号在空间定位和感知方面接近参考信号,明显优于线性编码。
  • 音色保真
    • 虽然参数化编码信号在某些复杂场景中表现出微小的音色偏差,但总体得分仍高于线性编码。
  • 整体偏好
    • 测试者对参数化编码的整体满意度更高,尤其是在带有反射场景的测试中。

结论与意义

  1. 科学价值

    • 提出了一种通用的、信号依赖的Ambisonic编码方法,拓宽了麦克风阵列在非规则几何下的适用性。
    • 为未来在AR/VR设备中集成空间音频录制功能提供了技术基础。
  2. 应用价值

    • 该方法可以用于增强现实头戴设备、360°视频录制设备以及其他便携式音频捕获设备中,提高空间音频录制和再现的质量。
  3. 研究亮点

    • 提供了无需严格规则阵列几何的高效编码解决方案。
    • 在空间分辨率和频带宽度方面,明显优于现有的线性编码方法。
    • 支持高阶编码,增强了沉浸式音频的可感知真实感。

研究展望

  1. 开发适用于实时应用的高效实现算法。
  2. 探索更鲁棒的空间分析方法,以应对扩散场中的挑战。
  3. 在实际AR/VR场景中进行更大规模的主观测试。

该研究的创新性及其对空间音频技术的贡献为相关领域的学者和工程师提供了重要的参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com