个体化与非个体化串扰消除系统中的声源定位研究

分享自：
个体化与非个体化串扰消除系统中的声源定位研究

期刊:The Journal of the Acoustical Society of AmericaDOI:10.1121/1.4792355
个性化与非个性化串音消除系统中的声音定位研究
第一作者及研究机构 本研究的主要作者是来自奥地利科学院声学研究所的Piotr Majdak，以及来自德国亚琛工业大学技术声学研究所的Bruno Masiero和Janina Fels。该研究论文发表于《美国声学学会期刊》（Journal of the Acoustical Society of America），于2013年4月出版（第133卷第4期）。
学术背景 本研究属于听觉科学、心理声学及空间音频技术交叉领域。研究的核心是探讨串音消除（Crosstalk Cancellation, CTC）系统对声音定位性能的影响。CTC系统是一种通过扬声器重放双耳信号（Binaural Signal）的技术，旨在为听者创造虚拟声源。其基本原理是使用滤波器（CTC滤波器）来补偿两个扬声器到听者双耳之间的串音干扰，使得左耳只听到左声道的信号，右耳只听到右声道的信号，从而实现精确的虚拟听觉空间重放。
CTC系统的性能高度依赖于用于计算滤波器的头相关传输函数（Head-Related Transfer Functions, HRTFs）。HRTFs描述了声音从空间某一点传播到听者耳道过程中，由头部、躯干和外耳引起的方向性滤波效应，是双耳听觉和虚拟声像定位的关键。然而，HRTFs具有高度的个体依赖性。因此，CTC系统存在“匹配”与“失配”的情况：当用于计算CTC滤波器的HRTFs（“设置HRTFs”）与实际听音环境中的声学传输路径（“回放HRTFs”）完全一致时，称为“匹配”系统；当两者不一致时，称为“失配”系统。失配可能源于使用非个体化（来自他人或人工头）的HRTFs，也可能源于即使使用个体化HRTFs，但测量环境与实际听音环境存在细微差异。
先前的研究（如Akeroyd等人，2007年）通过模拟预测，失配的CTC系统会导致双耳线索（如双耳时间差ITD和双耳强度差ILD）的失真，从而可能损害定位性能，特别是对于侧向声源。然而，关于失配CTC系统（尤其是部分失配的个体化系统）在真实听者中如何影响二维（水平和矢状面）声音定位性能，仍缺乏系统的实证研究。此外，衡量CTC系统质量的常用客观指标——声道分离度（Channel Separation, CS）——与主观定位性能之间的关系也尚不明确。
因此，本研究旨在：1）系统评估匹配、个体化失配以及非个体化失配CTC系统下的水平和矢状面声音定位性能，并与基准双耳聆听进行比较；2）探究声道分离度（CS）能否作为预测CTC系统定位性能的有效指标。
研究详细流程 本研究采用头戴式耳机在虚拟听觉环境中模拟CTC系统，以精确控制所有变量（如听者位置、扬声器特性），从而专注于研究HRTF失配本身的影响。
1. 受试者： 共有8名听力正常的听者参与实验。所有听者在0.125至12.5 kHz频率范围内的听阈均在正常范围内，并且在预实验中，使用其自身的宽带方向性传输函数（Directional Transfer Functions, DTFs）时，前后混淆率低于20%。实验为单盲设计。
2. HRTF测量： 为每位听者进行了两次个体化HRTF测量，间隔约五年。测量在一个消声室内进行，使用22个扬声器布置在垂直圆弧上，覆盖-30°到+80°的仰角。微型麦克风被插入听者耳道进行记录。测量位置覆盖了球面上1550个点。从HRTFs中提取了DTFs（去除了与方向无关的耳道传输函数公共部分），用于后续生成虚拟声源。
3. 实验条件： 共测试了8种条件，每种条件进行3个区块（block），每区块包含100个随机呈现的声源目标。 * 基准条件（Binaural）： * BinOwn: 使用第一次测量的个体化DTFs直接生成双耳信号，通过耳机呈现（无CTC处理）。 * BinOwnB: 使用第二次测量的个体化DTFs直接生成双耳信号。 * 个性化CTC条件： * CTCOwn (匹配): CTC滤波器和虚拟扬声器回放路径均使用第一次测量的HRTFs。代表理想的个性化匹配CTC系统。 * CTCOwnB (个体化失配): CTC滤波器使用第二次测量的HRTFs计算，而虚拟扬声器回放路径使用第一次测量的HRTFs。代表现实中常见的个性化但失配的CTC系统（测量与使用环境存在差异）。 * 非个性化CTC条件（失配）： * CTCkemar: CTC滤波器使用KEMAR人工头的HRTFs。 * CTCnh57, CTCnh64, CTCnh68, CTCnh12: CTC滤波器分别使用其他四位听者的HRTFs。这些条件统称为CTCOther。
4. CTC系统模拟与刺激生成： 虚拟CTC系统模拟了两个位于听者前方±45°的虚拟扬声器。处理流程包含三个阶段： * 阶段一（目标空间化）： 高斯白噪声刺激（500毫秒）使用听者个体化的DTF（根据目标方向选择）进行滤波，生成双耳目标信号 s。 * 阶段二（CTC滤波）： 双耳目标信号 s 使用CTC滤波器矩阵 C 进行处理，生成“跨耳”信号以驱动虚拟扬声器。CTC滤波器 C 通过Tikhonov正则化的Moore-Penrose伪逆计算得出，基于虚拟扬声器位置的“设置HRTFs”矩阵 H。 * 阶段三（虚拟扬声器回放）： 生成的“跨耳”信号再使用听者个体化的“回放HRTFs”进行滤波，模拟从虚拟扬声器到双耳的声学传播，最终生成通过耳机呈现给听者的信号 e。
5. 实验装置与流程： 实验在隔音室中进行。听者佩戴经过扩散场均衡的耳机和头戴式显示器。他们站在一个平台上，手持一个带有位置追踪器的指针。虚拟视觉环境是一个球形网格。在每个试次中，听者先对齐到参考位置，然后一个声刺激被呈现。听者被要求保持头部静止，聆听后使用指针指向感知到的声源位置，该响应被记录用于分析。实验前，听者进行了视觉和听觉训练以确保任务熟练度。
6. 数据分析方法： 定位误差从响应角度减去目标角度计算得出。 * 侧向误差（Lateral Error, LE）： 侧向维度（左-右）误差的均方根值。 * 象限错误（Quadrant Error, QE）： 极角（前-后-上-下）误差绝对值超过90°的响应百分比，反映前后/上下混淆。 * 局部极角误差（Local Polar Error, PE）： 在正确半球（即极角误差小于90°）的响应中，极角误差的均方根值，反映在正确半球内的仰角定位精度。 * 声道分离度（CS）计算： 作为客观指标，CS计算了在给定CTC系统下，理想情况下只应出现在左耳的信号在左右耳间的对数幅度差。研究中计算了三个频段的平均CS：全频（0.3-8 kHz）、低频（0.3-2 kHz，主要关联ITD）和高频（4-16 kHz，主要关联单耳频谱线索）。同时计算了无CTC时（即简单立体声重放）的自然声道分离度 ĈS。 * 统计分析： 使用重复测量方差分析（RM-ANOVA）和Tukey-Kramer事后检验比较不同条件间的定位误差（QE, PE, LE）。并分析了CS与定位误差之间的相关性。
主要研究结果 1. 基准双耳条件： 两个双耳条件（BinOwn 和 BinOwnB）的定位性能（QE平均~8%， PE平均~31°， LE平均~10.5°）与文献报道的宽带噪声虚拟声源定位性能一致。尽管两次HRTF测量间隔五年，但两者提供的定位性能无显著差异，表明人类听觉定位系统对HRTF测量中的微小变化具有一定的鲁棒性。
2. 个性化CTC系统： * 匹配系统（CTCOwn）： 定位性能（QE, PE, LE）与双耳基准条件无显著差异。这表明，在理想匹配条件下，CTC系统能够提供与双耳耳机重放相当的声音定位性能。 * 失配系统（CTCOwnB）： 定位性能显著下降。QE和LE显著高于匹配系统和双耳条件。PE虽未达到统计显著性，但也有所增加（34.2° vs. ~31°）。方向依赖性分析揭示了关键发现： * 水平面： 对于位于两个虚拟扬声器之外（侧向）的目标，LE显著增大；而对于位于扬声器之间（前方中央）的目标，LE与匹配系统无显著差异。这表明失配主要损害了侧向声源的定位。 * 矢状面： 对于位于听者前方（与扬声器同半球）的目标，QE与匹配系统无显著差异；而对于位于听者后方（与扬声器反半球）的目标，QE急剧增加（16.8% vs. 5.7%）。这表明失配严重破坏了用于后方定位的频谱线索。
3. 非个性化CTC系统（CTCOther）： * 总体来看，非个性化系统的定位性能（QE 16.9%, PE 36.7°, LE 12.6°）比个性化失配系统（CTCOwnB）更差，但统计上仅在部分指标上显著。 * 方向依赖性分析再次凸显了差异：对于后方目标，非个性化系统的QE（26.1%）和PE（40.8°）显著差于个性化失配系统（QE 16.8%， PE 33.7°）。对于前方目标，两者性能相近。这表明，即使都是失配系统，使用个体化HRTF计算CTC滤波器，仍能显著改善对后方声源的定位能力。
4. 声道分离度（CS）与定位性能的关系： * CS值： 匹配系统（CTCOwn）的CS非常高（平均68.4 dB）。所有失配系统（无论个体化与否）的CS值都大幅降低（平均约15 dB），且与无CTC时的自然分离度 ĈS（约14.5 dB）相近。有趣的是，失配CTC系统在低频（<2 kHz）略微提升了CS，但在**高频**（>4 kHz）反而降低了CS。 * 相关性分析： CS（无论是全频、低频还是高频）与整体定位误差（QE, PE, LE）的相关性较弱（相关系数绝对值在0.3-0.5之间）。即使在控制了听者个体基线性能后，相关性改善有限。 * 对于匹配系统，CS与定位性能基本不相关（样本量小）。 * 对于失配系统，中频CS（0.3-8 kHz）与侧向误差（LE）显示出中等程度的负相关（约-0.6），表明CS在一定程度上可以预测失配CTC系统的水平面定位性能。然而，CS与矢状面定位误差（QE, PE）的相关性很弱，这表明这个基于双耳差异的指标无法有效预测主要依赖单耳频谱线索的矢状面定位性能。
研究结论与意义 本研究系统地实证评估了HRTF匹配程度对CTC系统声音定位性能的影响，并得出以下核心结论： 1. 理想匹配的个性化CTC系统可以实现与双耳耳机重放同等的二维声音定位精度。 2. 现实中的失配（即使使用个体化HRTFs）会显著降低定位性能，这种损害具有方向特异性：侧向和后方声源的定位受损最为严重。对于前方中央区域的声源，失配CTC系统的性能可能与匹配系统相近，类似于立体声重放中的“幻像声源”。 3. 使用个体化HRTFs计算CTC滤波器，即使在失配情况下，也比使用非个体化HRTFs更有优势，这种优势主要体现在对后方声源的定位改善上。 4. 常用的客观质量指标——声道分离度（CS）——是预测CTC系统定位性能的有限指标。它虽然能清晰区分匹配与失配系统，但无法有效区分不同失配系统（如个体化失配 vs. 非个体化失配）之间的定位性能差异，尤其无法预测矢状面的定位表现。中频CS与水平面定位误差有中等相关性，可能对评估失配系统的水平面性能有一定参考价值。
科学价值与应用启示： * 理论价值： 研究明确了CTC系统中HRTF失配影响定位性能的具体模式和边界条件（方向特异性），深化了对虚拟听觉重放中线索保真度与感知结果之间关系的理解。 * 应用价值： * 系统设计： 研究指出，为实现全空间（尤其是后方和侧向）的精确定位，必须追求CTC滤波器与实际声学路径的高度匹配。对于主要关注前方声景的应用（如影院、音乐欣赏），对匹配精度的要求可以放宽。 * 技术路线： 为改善后方定位，一个可行的方案是使用后方额外的扬声器并结合CTC处理。研究也暗示，结合波场合成（WFS）与CTC的多扬声器系统可能是未来实现稳健全空间重放的方向。 * 客观评估： 研究建议，CS不适合作为评估CTC系统空间定位性能（特别是矢状面）的主要标准。需要寻找或结合更能反映单耳频谱线索保真度的客观指标（如均衡性能）来全面评估系统质量。 * 个性化重要性： 研究强有力地支持了在高质量空间音频重放中采用个性化HRTFs的必要性，即使无法完全匹配，也能带来可观的性能提升。
研究亮点 1. 系统性与针对性： 研究首次在同一框架内，系统比较了匹配、个体化失配、非个体化失配CTC系统以及双耳基准条件下的二维声音定位性能，并进行了细致的方向依赖性分析，揭示了失配损害的空间分布模式。 2. 方法严谨： 采用头戴式耳机模拟CTC系统，完美控制了听者位置、扬声器特性等干扰变量，使研究能够纯粹地聚焦于HRTF失配效应本身。 3. 连接主客观评价： 不仅进行了详细的心理声学实验，还计算了多种情况下的声道分离度（CS），并深入探讨了该客观指标与主观定位性能之间的复杂关系，指出了其局限性，对工程实践具有重要指导意义。 4. 关注现实场景： 专门设置了“个体化失配”（CTCOwnB）条件，模拟了实际应用中HRTF测量与使用环境存在细微差异的常见情况，使研究结论更具现实参考价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问