分享自:

低延迟语音增强在助听器中的应用

期刊:IEEE/ACM Transactions on Audio, Speech, and Language ProcessingDOI:10.1109/TASLP.2022.3198548

这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

第一,研究的主要作者及机构,发表期刊和时间
该研究由Hendrik Schröter、Tobias Rosenkranz、Alberto-N. Escalante-B.和Andreas Maier共同完成。Hendrik Schröter和Andreas Maier来自德国埃尔朗根-纽伦堡大学的模式识别实验室,Tobias Rosenkranz和Alberto-N. Escalante-B.则来自Sivantos GmbH。该研究发表于2022年的《IEEE/ACM Transactions on Audio, Speech, and Language Processing》期刊,具体发表日期为2022年8月。

第二,研究的学术背景
该研究的主要科学领域是语音增强(Speech Enhancement),特别是针对助听器(Hearing Aids)的低延迟语音增强技术。助听器用户在日常生活中面临的主要问题之一是环境噪声的干扰,尤其是在非平稳噪声(如交通噪声或嘈杂人声)环境中,传统的噪声抑制算法表现不佳。尽管深度学习(Deep Learning)在语音增强领域展现了优越的性能,但现有方法通常需要较长的处理窗口,这在高延迟要求的助听器场景中不适用。因此,该研究旨在开发一种基于深度滤波(Deep Filtering)的低延迟语音增强方法,以提高助听器用户在复杂噪声环境中的语音感知质量。

第三,研究的工作流程
该研究分为以下几个主要步骤:

  1. 问题定义与目标
    研究目标是开发一种适用于助听器的低延迟语音增强算法,能够在较短的处理窗口内实现高效的噪声抑制,特别是在非平稳噪声环境中。传统方法由于频率分辨率较低,导致语音失真和粗糙感,而深度学习方法通过预测复杂的滤波器系数,能够更好地处理这些问题。

  2. 深度滤波算法的设计与实现
    研究提出了一种基于深度滤波的语音增强方法。深度滤波通过在时频域中预测复杂的滤波器系数,并将其线性应用于噪声频谱,从而实现对语音信号的增强。研究还引入了频率响应损失(Frequency Response Loss),该损失函数基于每个频带进行计算,以充分利用深度滤波的概念。

  3. 实验设计与数据集
    研究使用了多个数据集进行训练和测试,包括Fullband DNS 2021挑战赛数据集和内部录制的助听器噪声数据库。数据集被分为训练集、开发集和测试集,比例为70%/15%/15%。研究还进行了数据增强,包括随机重采样、滤波和混响模拟,以增加输入数据的多样性。

  4. 模型训练与优化
    研究采用了两阶段算法:第一阶段使用实值掩码(Real-valued Mask)增强语音的频谱包络,第二阶段使用深度滤波增强语音的周期性部分。模型使用Adam优化器进行训练,初始学习率为1e-4,并在训练过程中进行学习率衰减。损失函数包括频谱包络损失、频率响应损失和信噪比(SNR)损失。

  5. 实验结果与分析
    研究通过客观指标和主观听音测试评估了算法的性能。客观指标包括PESQ(Perceptual Evaluation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SI-SDR(Scale-Independent Signal Distortion Ratio)等。研究结果表明,该算法在低延迟条件下表现优异,特别是在非平稳噪声环境中,显著优于传统的助听器噪声抑制算法。

第四,研究的主要结果
1. 深度滤波的优越性
研究通过实验验证了深度滤波在低延迟条件下的优越性能。与传统的复数比率掩码(Complex Ratio Mask, CRM)相比,深度滤波能够更好地处理语音的周期性部分,特别是在小分析窗口条件下表现更为出色。

  1. 频率响应损失的有效性
    引入的频率响应损失显著提高了算法的频率分辨率,使得算法能够在每个频带内更好地捕捉语音的谐波结构,从而减少语音失真。

  2. 客观与主观评估结果
    在客观评估中,该算法在PESQ、STOI和SI-SDR等指标上均表现优异,特别是在低信噪比条件下。在主观听音测试中,用户普遍认为该算法在语音质量和噪声抑制方面优于现有的助听器噪声抑制算法。

第五,研究的结论
该研究提出了一种基于深度滤波的低延迟语音增强方法,特别适用于助听器场景。通过引入频率响应损失,研究成功解决了传统方法频率分辨率低的问题,显著提高了语音增强的性能。该算法在低延迟条件下表现优异,特别是在非平稳噪声环境中,能够显著改善助听器用户的语音感知质量。

第六,研究的亮点
1. 深度滤波的创新应用
研究首次将深度滤波应用于助听器的语音增强场景,通过预测复杂的滤波器系数,显著提高了语音增强的性能。

  1. 频率响应损失的引入
    研究提出的频率响应损失函数能够充分利用深度滤波的概念,显著提高了算法的频率分辨率。

  2. 低延迟条件下的优异表现
    该算法在低延迟条件下表现优异,特别是在非平稳噪声环境中,显著优于传统的助听器噪声抑制算法。

第七,其他有价值的内容
研究还探讨了深度滤波在不同滤波器阶数和时间步长下的性能表现,结果表明,增加滤波器阶数和时间步长能够进一步提高算法的性能。此外,研究还通过自动音素识别(Phoneme Recognition)评估了算法在语音清晰度方面的表现,结果表明,该算法能够显著提高语音清晰度。

该研究为助听器用户提供了一种高效的语音增强解决方案,具有重要的科学价值和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com