关于开放词汇声音事件定位与检测的研究报告:基于联合学习CLAP嵌入与活动耦合笛卡尔DOA向量的方法
本研究由 Kazuki Shimada(IEEE会员,京都大学信息学研究科及索尼AI)、Kengo Uchida(索尼AI)、Yuichiro Koyama(索尼集团)、Takashi Shibuya(索尼AI)、Shusuke Takahashi(索尼集团)、Yuki Mitsufuji(IEEE高级会员,索尼AI及索尼集团)以及 Tatsuya Kawahara(IEEE会士,京都大学信息学研究科)共同完成。该研究发表于 IEEE Transactions on Audio, Speech and Language Processing 期刊,2025年第33卷。
一、 研究背景
本研究属于音频信号处理与机器学习交叉领域,具体聚焦于声音事件定位与检测。SELD系统旨在从麦克风阵列捕获的多通道音频信号中,识别出每个声音事件的类别,并估计其对应的到达方向。SELD在智能监控、生物声学分析和人机交互等领域扮演着重要角色。然而,传统的SELD系统通常针对固定的、预定义的封闭词汇集进行训练,这限制了其在实际应用中的灵活性,因为不同用户可能有不同的目标声音类别需求。
随着对比语言-音频预训练模型等大型语言-音频模型的发展,开放词汇学习的概念在计算机视觉领域已取得成功,该研究旨在将这一概念引入SELD领域。目标是构建一个开放词汇的SELD系统,能够根据用户输入的文本提示词,检测和定位任何类别的声音事件。一个简单的实现思路是结合一个预训练的CLAP模型和一个DOA估计模型。然而,这种方法存在两个主要缺陷:1) CLAP模型对于包含多个重叠事件的音频输入,只能输出一个单一的、全局的音频嵌入,无法区分和关联重叠事件;2) 两个模型的简单组合在联合定位与检测任务上可能是次优的,因为它们没有经过联合优化训练。
因此,本研究的目标是克服这些挑战,开发一种能够处理重叠事件、并通过知识蒸馏利用预训练语言-音频模型知识的新型开放词汇SELD方法。
二、 研究流程与方法
本研究提出并验证了一种名为 Embed-ACCDOA 的模型。其核心思想是联合学习输出每个事件的音频嵌入及其对应的活动耦合笛卡尔DOA向量,以端到端的方式解决重叠事件的数据关联问题。整个研究流程包含模型设计、训练策略、数据集构建、实验评估与比较分析等多个环节。
1. 模型设计与核心方法 研究团队提出了Embed-ACCDOA模型架构。该模型采用轨道式输出方式,每个输出轨道负责预测一个潜在声音事件的嵌入向量和ACCDOA向量。模型包含两个分支:一个嵌入分支用于学习与CLAP空间对齐的音频表示;一个ACCDOA分支用于估计声音事件的活动状态和DOA(通过ACCDOA向量,其模长代表活动概率,方向代表DOA)。两个分支通过卷积块共享潜在表示,并使用多头自注意力块和全连接层进行处理。
2. 训练策略与知识蒸馏 模型的训练是关键创新点。研究采用了知识蒸馏策略,将预训练CLAP模型的语言-音频知识迁移到Embed-ACCDOA模型中。训练过程使用三种损失函数进行联合优化: * 音频知识蒸馏损失:强制模型预测的每个事件嵌入与CLAP音频编码器为该事件单声道音频生成的“教师”嵌入在余弦距离上对齐。 * 语言知识蒸馏损失:强制模型预测的事件嵌入与所有目标类别(包括背景类别“silent”)的CLAP文本嵌入进行对比,通过交叉熵损失使其能够被分类到正确的类别。 * ACCDOA损失:使用均方误差损失,使预测的ACCDOA向量逼近真实值。
为了处理轨道分配的不确定性,训练中采用了排列不变训练技术。此外,为了专注于学习事件嵌入,对于背景(无声)时段,其“教师”音频嵌入被设为零向量,使得模型在背景时段不受音频知识蒸馏的约束。
3. 数据集构建 为了系统评估模型,研究构建了一个名为 FSD50K_TAU-SRIR 的合成数据集。该数据集使用TAU空间房间脉冲响应数据库和FSD50K声音事件数据集生成。研究将192个声音类别划分为基础类别和新颖类别,以模拟开放词汇场景。基础类别用于训练,新颖类别仅用于测试,以评估模型对未见类别的泛化能力。研究设置了两种划分比例(B155/N37和B134/N58)。此外,还使用了两个外部标准数据集进行泛化能力评估:TAU-NIGENS Spatial Sound Events 2021 和 Sony-TAU Realistic Spatial Soundscapes 2023。
4. 实验设计与评估 实验分为多个部分,系统性地评估了所提方法的有效性: * 蒸馏方法对比:在FSD50K_TAU-SRIR数据集上,比较了仅使用音频蒸馏、仅使用语言蒸馏以及联合使用两者(默认方法)的性能。结果表明,联合蒸馏方法在基础类别和新颖类别上均取得了最佳性能。音频蒸馏在新颖类别上更具鲁棒性,而语言蒸馏有助于减少误报(插入错误)。 * 与基线方法比较: * 开放词汇基线:与“CLAP音频编码器 + ACCDOA估计模型”的简单组合方法对比。分析显示,组合方法无法处理重叠事件,且联合定位检测性能较差。而Embed-ACCDOA模型在重叠事件处理和整体SELD指标上均显著优于该基线。 * 固定词汇SELD系统:与在目标数据集上全监督训练的官方基线系统(如DCASE挑战赛基线)和先进系统(PSELDNets)对比。值得注意的是,仅使用合成数据集(FSD50K_TAU-SRIR)训练、未使用任何目标数据集真实标注的Embed-ACCDOA模型,在Tau-NIGENS 2021数据集上的表现超越了在该数据集上全监督训练的官方基线系统。在更复杂的真实录制数据集STARSS23上,虽然与最先进的PSELDNets存在差距,但其性能与官方基线系统相当,展现了强大的零样本泛化能力。 * 消融与扩展实验: * 模型与数据规模:研究了模型大小(Small vs. Medium)和训练数据量(2250分钟到90000分钟)对性能的影响。结果表明,增加模型大小和数据量通常能提升性能,但存在饱和趋势,尤其是在真实数据集上。 * 教师模型与提示词:比较了不同的预训练CLAP教师模型(LAION-CLAP vs. MS-CLAP-v2)和不同的文本提示模板(如“This is a sound of [category]” vs. “[category]”)。发现使用更描述性的提示模板和在推理时添加类别细节可以提升性能。
5. 数据分析流程 研究使用了一套标准的SELD评估指标进行定量分析,包括:基于20度角度容限的定位相关错误率和F分数、定位误差、定位召回率以及综合SELD误差。所有实验均使用三个随机种子运行并报告平均分数,以确保结果的可靠性。此外,研究还对模型在重叠情况下的预测进行了详细的定性分析(如图表所示),直观展示了Embed-ACCDOA模型相比简单组合方法在处理重叠事件和正确关联类别与DOA方面的优势。
三、 主要研究结果
四、 研究结论与意义
本研究成功地将开放词汇学习范式引入声音事件定位与检测领域,提出并验证了Embed-ACCDOA模型。该模型通过轨道式联合学习框架和双模态(音频与语言)知识蒸馏,有效解决了开放词汇场景下重叠声音事件的检测、分类与定位关联问题。
研究的科学价值在于:1) 首次系统性地构建并验证了开放词汇SELD的可行性与有效性框架;2) 提出了创新的Embed-ACCDOA模型,将事件嵌入学习与空间参数估计在一个统一框架内解决;3) 深入探索并比较了不同知识蒸馏策略、模型规模、数据规模等因素对开放词汇音频理解任务的影响。
其应用价值更为显著:该系统允许终端用户通过简单地修改文本提示词,即可让同一个模型适应于检测和定位任意感兴趣的声音类别,而无需为每个新任务重新收集数据和训练模型。这极大地增强了SELD系统的灵活性和实用性,为智能监控、机器人听觉、音频内容分析等应用提供了强大的即用型工具。
五、 研究亮点
六、 其他有价值内容
本研究开源了相关代码,促进了该领域的可复现性和后续发展。此外,论文对相关工作的综述非常全面,涵盖了SELD、计算机视觉中的开放词汇检测、以及音频领域的语言-音频模型和开放词汇相关工作,为读者提供了清晰的学术脉络。研究也坦诚地指出了当前方法的局限性,例如在高度复杂的真实场景(如STARSS23)中性能仍有提升空间,并指出更新合成数据生成方法(如更真实的模拟)是未来的改进方向。