基于3D网格的个性化头部相关传输函数高效预测方法

分享自：
基于3D网格的个性化头部相关传输函数高效预测方法

期刊:applied acousticsDOI:10.1016/j.apacoust.2024.109938
基于3D网格的个性化头相关传输函数高效预测研究作者及发表信息本研究由Jiale Zhao、Dingding Yao、Jianjun Gu和Junfeng Li（通讯作者）合作完成，作者单位包括中国科学院声学研究所语音声学与内容理解重点实验室和中国科学院大学。研究成果发表于期刊Applied Acoustics第219卷（2024年），论文标题为《Efficient prediction of individual head-related transfer functions based on 3D meshes》。
学术背景研究领域与背景头相关传输函数（Head-Related Transfer Function, HRTF）是描述声波因人体头部、耳廓及躯干等解剖结构引起的物理效应（如反射、衍射）的关键参数，在空间音频渲染（如增强现实/虚拟现实，AR/VR）中至关重要。传统HRTF获取方法依赖消声室测量，但过程耗时且设备复杂。因此，基于现有数据集预测个性化HRTF的近似方法成为研究热点。
研究动机与目标现有方法主要依赖人体测量参数或耳廓图像，但前者难以准确表征耳廓细节（影响高频HRTF），后者受限于图像采集条件（如相机位置）。相比之下，3D网格能更全面反映个体解剖结构。本研究提出一种基于神经网络的HRTF预测方法，利用3D网格实现全空间HRTF频谱的高效个性化预测，重点解决以下问题：
 1. 传统数值模拟方法（如边界元法BEM）计算成本高且依赖高精度网格；
 2. 现有神经网络模型未充分利用HRTF频谱在相邻采样点间的连续性特征；
 3. 需提升高频频谱中峰谷位置的预测精度。
研究流程与方法1. 数据预处理数据集：采用3D3A数据集，包含30名受试者的HRTF测量数据（648个方向，方位角5°间隔，俯仰角覆盖-57°至75°）及3D网格（头部、躯干、耳廓）。
 
HRTF处理：对头相关脉冲响应（HRIR）进行256点FFT，保留200 Hz–18 kHz频段的103维频谱（对数域转换+等效矩形带宽滤波平滑）。
 
3D网格处理：网格点采样数（(N_m)）初始设为2048，对齐至标准坐标系（头部沿z轴，面朝x轴正方向）。
 
2. 模型架构设计模型分为三部分（图1）：
 1. 解剖特征提取：
 - 输入：3D网格（含躯干、头部、耳廓）。
 - 结构：3个卷积块（每块含1D卷积层、批归一化、ReLU激活、最大池化，附加跳跃连接），输出144维特征向量。
 2. 垂直平面共享特征生成：
 - 结构：2个全连接块（含Dropout），输出18（俯仰角）×103（频率）的共享特征矩阵。
 3. 全空间HRTF预测：
 - 结构：3个卷积块，输出36（方位角/2）×18×103的三维频谱矩阵。
3. 训练与评估数据集划分：30名受试者随机分为训练集（24人）、验证集（3人）、测试集（3人），10折交叉验证。
 
损失函数：平均绝对误差（MAE）。
 
对比模型：传统单HRTF频谱预测模型（图2），输入目标方向（方位角、俯仰角）和3D网格，输出单频谱。
 
4. 实验分析性能指标：谱距离误差（SDE）、对数谱失真（LSD）。
 
对比方法：
 AE-DNN-VAE（基于人体测量参数）
 
Unet-Ear（基于耳廓图像）
 
DNN-BEM（结合BEM模拟与神经网络）
 
主要结果模型性能：
提出的垂直平面共享特征模型在频谱连续性上优于单频谱预测模型（图4），尤其在峰谷位置预测（相关系数提升约0.15）。
 
训练效率提升显著：单次预测全空间HRTF仅需0.95秒，而传统模型需2.26秒/方向（表1）。
 
对比实验：
平均LSD为3.78 dB，低于AE-DNN-VAE（4.21 dB）和Unet-Ear（5.32 dB）（表2）。
 
3D网格点数优化：当(N_m=2048)（(2^{11})）时误差最小（图6），远低于数值模拟所需的(2^{17})点。
 
感知评估：
中矢面定位：提出的HRTF将上下混淆率从26.85%降至13.89%，接近实测HRTF（8.33%）（表3）。
 
水平面定位：方位角误差为2.75°，与实测HRTF（2.70°）相当（表4）。
 
结论与价值科学价值方法创新：首次通过垂直平面共享特征建模HRTF频谱的跨方向相关性，解决了传统模型频谱不连续的问题。
 
技术突破：仅需2048个网格点即可实现高精度预测，显著降低计算成本。
 
应用价值为AR/VR系统提供了一种高效、低成本的个性化HRTF生成方案，克服了传统测量与模拟方法的局限性。
研究亮点全空间预测：单次输出全方向HRTF，效率提升2.4倍。
 
高频细节优化：通过共享特征学习，准确捕捉峰谷频率变化（关键于垂直定位）。
 
跨模态优势：3D网格特征优于人体参数与耳廓图像，LSD降低11%。
 
未来方向扩展数据库以提升模型泛化性；
 
探索耳廓区域网格密度优化对高频预测的影响；
 
研究头发、衣物等非刚性边界对HRTF的修正方法。
 
（注：文中专业术语如HRTF、BEM等首次出现时标注英文，后续使用中文简称。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问