本研究由帝国理工学院戴森设计工程学院的Isaac Engel、Craig Henry和Lorenzo Picinali,以及Facebook现实实验室的Sebastián V. Amengual Garí和Philip W. Robinson共同完成。该研究以论文《不同基于Ambisonics的双耳混响方法之感知影响》的形式,发表在《美国声学学会杂志》(J. Acoust. Soc. Am.)2021年2月第149卷第2期上。
研究背景与目的
这项研究隶属于空间音频与虚拟听觉渲染领域,核心关注点是三维音效中混响(Reverberation)的高效与高质量生成。混响对于逼真模拟封闭空间的听觉感受至关重要,但高保真度渲染通常计算成本高昂。在实践中,常使用简化模型来降低成本,同时力求保持感知质量。基于球形谐波(Spherical Harmonics, SH)的Ambisonics方法是一种常见手段,它通过限制空间分辨率来更高效地渲染混响声场。
然而,现有研究在如何平衡计算效率与感知质量方面仍存在疑问。此前的研究(如Avni等人,2013;Bernschütz,2016;Ahrens和Andersson,2019)主要探讨了在标准Ambisonics渲染(即整个声场,包括直达声和混响,均在Ambisonics域处理)中,降低空间阶数对感知质量的影响。这些研究表明,需要较高的阶数(例如5阶或8阶以上)才能达到满意的质量。一个关键的发现是,相比混响,直达声路径对空间分辨率的要求更高,因为它更具有方向性。
基于此,本研究提出了两个旨在提升效率的Ambisonics双耳混响简化方案,并探究其感知影响。具体研究目标分为两方面:第一,评估在“混合Ambisonics”方法中降低空间阶数的感知影响。该方法将直达声路径与混响分离处理,前者使用空间密集的头部相关脉冲响应(Head-Related Impulse Response, HRIR)数据集进行卷积渲染,后者则在Ambisonics域处理。研究假设,由于直达声被准确渲染,混响部分所需的最低空间阶数可能低于先前标准Ambisonics研究的结果。第二,评估“混响虚拟扬声器”(Reverberant Virtual Loudspeaker, RVL)方法的主观偏好。RVL是一种计算高效、可动态渲染多声源的双耳混响方法,但其为了效率牺牲了准确性,特别是在模拟听者头部旋转时,采用了将房间“锁定”在头部的近似处理。研究旨在比较RVL与更精确方法在模拟头部旋转时的主观偏好差异。
研究方法与流程
本研究工作流程主要包括声学测量、双耳信号生成(含两种方法)、客观数值分析以及两项感知评估实验。
1. 声学测量与房间脉冲响应(Room Impulse Response, RIR)生成 研究在两个实际房间中进行测量:一个是大而开放、混响较长的“图书馆”;另一个是小而硬质表面较多、早期反射更明显的“梯形”会议室。使用32胶囊的四阶球形麦克风阵列(Eigenmike)作为接收器,测量了三个不同方位角声源的RIR。通过配套软件,生成了0阶至4阶的Ambisonics格式的RIR。对于混合Ambisonics渲染,所有RIR都移除了直达声部分(起始后数毫秒),并进行了加窗和降噪处理。对于RVL方法,则使用头躯模拟器(KEMAR)测量了六个方向(前、后、左、右、上、下)的双耳房间脉冲响应(Binaural Room Impulse Response, BRIR),并进行了相同的直达声移除和后处理。此外,为了最小化因Ambisonics阶数限制引起的频谱误差,使用参考BRIR对Ambisonics RIR进行了均衡滤波。
2. 双耳渲染方法 * 混合Ambisonics渲染:直达声通过从8802个HRIR的密集数据集中进行重心插值获得的HRIR进行实时卷积渲染。混响部分则在Ambisonics域处理(0至4阶)。具体流程为:将干燥音频信号与处理后的Ambisonics RIR(已移除直达声)进行卷积,然后使用采样解码器将结果解码到一组虚拟扬声器信号(数量由阶数决定,如1阶对应6个,放置于正八面体顶点),最后将这些虚拟扬声器信号与对应的插值HRIR卷积,生成最终的双耳信号。所有处理均支持头部跟踪。 * RVL渲染:直达声渲染方式与混合Ambisonics相同。混响部分则将所有声源的干燥音频信号编码到一个单一的一阶Ambisonics声场中,然后解码到六个虚拟扬声器信号(同样为正八面体布局),最后将这六个信号与先前测量的六个KEMAR BRIR(已移除直达声)进行卷积。这种方法的特点是,无论声源数量多少,混响部分的实时卷积次数固定为与虚拟扬声器数量相关(对于一阶是6次),计算效率高。但其头部旋转模拟是通过在Ambisonics域反向平移所有声源来实现的,导致房间 acoustics 相对于听者头部是固定的(“头锁定”)。
3. 客观数值分析 在感知实验前,对合成的BRIR进行了多项客观分析: * 描述性分析:展示了不同阶数下Ambisonics RIR的时空结构,直观显示低阶数会使反射在方位上变得更扩散(方向性减弱)。 * 双耳客观指标:计算了双耳互相关系数(IACC)和衍生的双耳质量指数(BQI)。结果显示,从0阶到1阶,空间质量预测有大幅提升,高阶之间差异变小。出乎意料的是,RVL方法在BQI指标上预测的空间质量甚至高于高阶混合Ambisonics条件。 * 频谱分析:通过将BRIR与测试信号(语音、音乐)卷积,分析其长期平均频谱。结果显示,随着阶数降低,与参考(4阶)的频谱差异增大,0阶到1阶的跳跃最大。梯形房间的频谱差异总体上比图书馆房间更大。 * 响度稳定性分析:分析了在头部旋转时,混响声场的预测响度变化。发现一阶混合Ambisonics的响度随头部转向波动较大,而RVL和静态渲染(混响不随头动更新)的响度变化则更平滑。
4. 感知评估实验 共有32名听者参与了两项实验,部分在消声实验室进行,部分在实测房间(图书馆或梯形室)原位进行,以考察“房间差异”效应。 * 实验1(混合Ambisonics阶数评估):采用MUSHRA(多激励隐藏参考与锚点测试)范式。听者需评价不同空间阶数(0至4阶)的混合Ambisonics渲染与参考(4阶)的相似度。锚点条件为无混响的干渲染。结果显示,感知差异在0阶和1阶之间最大,在高阶之间变小。统计表明,三阶渲染的评分与隐藏参考(四阶)无显著差异。这意味着,在直达声被准确分离渲染的前提下,混响部分的空间阶数只需2到3阶即可达到与更高阶相似的感知质量。研究还发现了房间依赖性:在反射更扩散的图书馆,质量饱和的阶数可能更低(三阶已与四阶无异);而在早期反射更 salient 的梯形室,趋势则稍有不同。此外,头部运动量仅与0阶和1阶的评分有负相关,表明高阶渲染的质量不受听者探索性头动的影响。 * 实验2(RVL与动态渲染对比):采用无参考的双盲配对比较范式。比较三种条件:(1)一阶混合Ambisonics(动态);(2)一阶混合Ambisonics(静态,混响不随头动更新);(3)RVL(动态但头锁定)。听者根据看到的房间图片或原位体验,判断哪种渲染“更适合”该房间。结果更为复杂:静态锚点条件在某些情况下(尤其是梯形室)比动态版本更受偏好,这可能源于低阶动态渲染的响度不稳定性。在RVL与混合Ambisonics的比较中,偏好呈现两极分化且依赖于房间和测试地点:在图书馆,混合Ambisonics更受偏好;而在梯形室,原位测试的听者明显更偏好RVL,这可能因为RVL使用的BRIR测量更准确地捕捉了该房间的特性。房间差异效应在本实验中更为明显。
主要结果与结论
主要结果: 1. 混合Ambisonics的阶数阈值降低:当直达声被准确分离渲染时,双耳混响的感知质量在空间阶数达到2至3阶后便不再有显著提升。这低于先前将直达声包含在Ambisonics域处理的研究所报告的阶数要求(如8阶)。此阈值受房间声学特性影响,混响更扩散的房间(如图书馆)可能比早期反射明显的房间(如梯形室)所需阶数更低。 2. RVL的实用价值得到验证:尽管RVL在模拟头部旋转时存在近似处理,但其产生的听觉化效果在主观偏好上与基于Ambisonics的方法具有可比性,甚至在特定房间和条件下更受偏好。这表明其简化带来的感知质量下降在可接受范围内,考虑到其在渲染多声源时的高计算效率优势,RVL是一种值得在低成本场景中考虑的方法。 3. 动态渲染的权衡:研究发现,在低Ambisonics阶数下,完全动态更新混响(随头动)可能因引入响度不稳定而并非总是最优选择。静态或RVL这种“半静态”(头锁定)的混响渲染,有时能提供更稳定、更受偏好的听觉体验。
研究结论与价值: 本研究系统探索了基于Ambisonics的双耳混响简化方案的感知边界。其主要结论是:通过“混合Ambisonics”策略分离处理直达声,可以显著降低混响部分所需的空间分辨率(Ambisonics阶数),从而在不损失感知质量的前提下提高渲染效率。同时,研究证实了RVL这种高度简化的多声源渲染方法在实际应用中的可行性。这些发现为开发面向虚拟现实、增强现实等实时交互应用的高效空间音频渲染器提供了直接的理论依据和设计指南。研究指出,未来工作可以进一步探索对早期反射和后期混响分别采用不同空间分辨率的分段渲染策略,以及建立更完善的感知模型来指导参数化混响渲染。
研究亮点 1. 方法创新:明确提出了“混合Ambisonics”的概念并进行了系统的感知验证,为降低混响渲染复杂度提供了新思路。 2. 综合评估:不仅进行了细致的感知实验(包含MUSHRA和配对比较两种范式),还结合了丰富的客观数值分析(IACC, BQI, 频谱,响度稳定性),使结论更为扎实。 3. 关注实际限制:研究的两个核心问题(降低阶数、高效多声源渲染)都紧扣实时交互应用中的计算资源限制,具有明确的工程应用导向。 4. 考虑环境因素:实验设计包含了不同声学特性的房间以及原位测试,考察了房间差异对感知评估的影响,增强了研究结果的普适性和生态效度。 5. 挑战既有认知:关于低阶动态渲染可能因响度不稳定而劣于静态或简化渲染的发现,对传统上追求完全物理准确的动态渲染理念提出了有价值的实践性质疑。
其他有价值内容 研究中对头部运动数据的分析也颇具价值。在实验1中,发现听者的头部运动量与低阶条件(0阶和1阶)的较低评分相关,而与高阶条件无关。这暗示听者在评估低质量空间音频时,会本能地通过更多头部运动来探查缺陷,而高质量渲染则无需此行为。这为利用头部跟踪数据作为空间音频质量的无感知评估指标提供了间接支持。