分享自:

端到端配对的Ambisonic-双耳音频渲染

期刊:IEEE/CAA Journal of Automatica Sinica

这篇文档属于类型a,即单篇原创研究的学术报告。以下是对该研究的详细介绍:

作者及发表信息

该研究由Yin Zhu、Qiuqiang Kong、Junjie Shi、Shilei Liu、Xuzhou Ye、Ju-Chiang Wang、Hongming Shan(IEEE高级会员)和Junping Zhang(IEEE高级会员)共同完成。研究发表在《IEEE/CAA Journal of Automatica Sinica》2024年2月刊上,标题为“End-to-End Paired Ambisonic-Binaural Audio Rendering”。

学术背景

该研究的主要科学领域是虚拟现实和沉浸式媒体中的双耳渲染(binaural rendering)。双耳渲染技术通过模拟声音的空间位置,为耳机用户创造逼真的听觉体验。然而,现有的双耳渲染方法存在两大问题:一是高个性化成本,通常需要通过测量个体相关的头相关传递函数(HRTF,Head-Related Transfer Function)来实现个性化效果;二是数值精度不足,传统方法在优化过程中往往会丢弃部分信息以保留感知上更重要的部分。为了解决这些问题,研究者提出了一种基于深度学习的端到端方法,旨在以低成本实现个性化和高精度的双耳渲染。

研究流程

研究分为以下几个主要步骤:

  1. 数据集收集与发布
    研究者开发并发布了首个成对的Ambisonic-Binaural数据集(BTPAB),该数据集基于虚拟音乐会场景,包含31分钟的训练数据和18分钟的测试数据。数据集通过H3-VR设备记录环境声音,并使用Neumann KU100假人头记录双耳声音。与传统的HRTF数据集相比,BTPAB数据集的采集过程更为简单高效,避免了复杂的HRTF测量。

  2. 模型架构设计
    研究者提出了一种名为SCGAD(Spatial-Content GRU-Attention-DNN)的深度学习模型架构。该模型将Ambisonic信号的特征分为空间特征和内容特征两部分:

    • 空间特征学习:通过通道共享编码器(channel-shared encoder)和通道对比注意力机制(channel-compared attention mechanism)来学习空间特征。通道共享编码器将不同通道的音频视为同一声场的不同视角,而通道对比注意力机制通过成对比较不同通道的特征来提取空间信息。
    • 内容特征学习:使用门控循环单元(GRU,Gated Recurrent Unit)来学习内容特征,GRU能够捕捉随时间变化的特征。
      最后,通过全连接神经网络(DNN)处理结合后的特征。
  3. 损失函数设计
    研究者提出了一种基于空间和内容信息的损失函数(Spatial-Content Loss, SCL)。该损失函数包括两部分:

    • 内容一致性:通过L1距离衡量时间域和频率域的内容一致性。
    • 空间一致性:基于双工理论(duplex theory),提出了一种可微分的双耳信号间声级差(ILD, Interaural Level Difference)量化方法,用于衡量空间信息的一致性。
  4. 实验验证
    研究者在BTPAB数据集上进行了广泛的实验,验证了所提方法的性能。实验包括以下几个方面:

    • 消融实验:验证了模型中各个设计模块的有效性,例如通道共享编码器、通道对比注意力机制以及空间-内容损失函数。
    • 性能对比:与传统方法(如MagLS、TA、BimagLS)及其他端到端方法(如KBNet、MossFormer)进行了对比,结果表明所提方法在内容信息和空间信息的准确性上均优于现有方法。
    • 超参数敏感性分析:研究了模型层数和特征维度比例对性能的影响,最终选择3层GRU和特征维度比例为1的配置。
    • 样本分析:通过输入和输出频谱图的对比,展示了所提方法在保留关键空间信息方面的优势。
    • 主观评估:通过盲听实验验证了所提方法在听觉体验上的优越性。

主要结果

  1. 消融实验结果
    消融实验表明,使用幅度谱图学习空间特征、使用复数谱图学习内容特征以及引入通道对比注意力机制均能显著提升模型性能。此外,空间-内容损失函数在优化空间信息一致性方面表现优异。

  2. 性能对比结果
    与传统方法相比,所提方法在信号失真比(SDR, Signal-to-Distortion Ratio)、双耳时间差(DITD, Difference of Interaural Time Difference)和双耳声级差(DILD, Difference of Interaural Level Difference)等指标上均取得了更好的结果。

  3. 样本分析结果
    样本分析显示,所提方法能够更好地保留关键空间信息,例如在频谱图中清晰可见的空白带,而传统方法(如MagLS)则存在高频分量过多和能量水平异常的问题。

  4. 主观评估结果
    盲听实验表明,所提方法生成的音频在听觉体验上最接近真实双耳信号,而其他方法(如仅使用内容特征学习的模型)则存在声音沉闷、细节不足的问题。

结论

该研究提出了一种基于深度学习的端到端Ambisonic-Binaural音频渲染方法,通过通道共享编码器、通道对比注意力机制和空间-内容损失函数,实现了高精度和低成本的个性化双耳渲染。实验结果表明,所提方法在内容信息和空间信息的准确性上均优于现有方法,具有重要的科学价值和实际应用价值。

研究亮点

  1. 创新性方法:首次提出了一种端到端的Ambisonic-Binaural音频渲染方法,解决了传统方法高成本、低精度的问题。
  2. 数据集贡献:发布了首个成对的Ambisonic-Binaural数据集,为相关研究提供了重要的数据支持。
  3. 空间特征学习:通过通道对比注意力机制,创新性地解决了多通道音频空间信息学习的难题。
  4. 损失函数设计:提出了一种可微分的双耳信号间声级差量化方法,为空间信息的一致性衡量提供了新的思路。

其他有价值的内容

研究者还讨论了所提方法的鲁棒性和未来研究方向,例如如何进一步提高内容特征学习的精度以及开发适用于多个体场景的通用模型。这些讨论为后续研究提供了重要的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com