基于机器学习的异常声音事件检测方法与应用综述

分享自：

基于机器学习的异常声音事件检测方法与应用综述

物理学

电气科学与工程

期刊:Multimedia Tools and ApplicationsDOI:10.1007/s11042-021-11817-9

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型b（科学论文，但非单一原创研究报告，具体为综述论文）。以下是针对该文档的学术报告：
作者与机构
 本文由Zied Mnasri（突尼斯El Manar大学电气工程系）、Stefano Rovetta与Francesco Masulli（意大利热那亚大学）合作完成，发表于2022年的期刊*Multimedia Tools and Applications*（2021年12月在线发表，DOI: 10.1007/s11042-021-11817-9）。
主题与背景
 论文题为《Anomalous Sound Event Detection: A Survey of Machine Learning Based Methods and Applications》，系统综述了基于机器学习的异常声音事件检测（Anomalous SED）技术。随着多模态人机交互的发展，音频信号分析在传统以视频为主的领域（如监控、工业故障诊断、安全监测）中日益重要。异常SED能够补充视觉信息，并在特定场景下超越视觉感知，但其面临数据稀缺、多声源混合（polyphony）等独特挑战。本文旨在填补该领域系统性综述的空白，涵盖特征提取、数据集、评估指标、方法、应用及开放性问题。
主要观点与论据1. 异常SED的定义与挑战定义：异常声音事件需满足三个特性：(a) 稀缺性（发生频率低于正常事件）；(b) 特征差异性（在特征空间中与正常事件距离较远）；© 语义特异性（携带与正常事件不同的含义）。但作者指出，仅依赖稀缺性可能导致高误报率，而特征差异需结合上下文动态判断（如Xiang & Gong 2018的观点）。
 挑战：
 - 时间结构化数据：需精确标注事件的起始/结束时间（类似语音分段任务）。
 - 多声源混合（polyphony）：多声源混合导致事件重叠，特征提取困难（如Mesaros 2019指出需依赖概率模型或非负矩阵分解）。
 - 数据稀缺：异常事件样本不足，需依赖半监督或无监督学习（如Purohit 2019提出的DAGMM-HO模型）。
2. 特征提取方法手工特征（Hand-crafted Features）：
 - 低级描述符（LLD）：包括MPEG-7频谱平坦度、MFCC（梅尔频率倒谱系数）、线性预测倒谱系数（LPCC）等，常用于传统分类器（如GMM）。
 - DCASE 2013标准特征集：涵盖时域（能量、过零率）、频域（频谱滚降、熵）及MFCC等共185维特征（Stowell 2015）。
 数据驱动特征：
 - 自编码器（Autoencoder）：通过重构误差学习潜在表示（如Perez-Castanos 2020的伽马通滤波器特征）。
 - 谱图图像处理：利用预训练CNN（如ResNet）从梅尔谱图中提取特征（Muller 2021）。
 特征选择：
 - 过滤法（如KL散度）、封装法（如遗传算法）和嵌入法（如随机森林）可优化特征子集（Chen 2017）。
3. 评估指标监督学习：采用帧级（F1-score、准确率）和事件级（容忍100ms起始偏差）指标（Mesaros 2016）。
 
无监督学习：引入AUC（曲线下面积）和p-AUC（局部AUC，关注低误报率区间）（Koizumi 2020）。
 
4. 方法与模型生成式模型：
 - GMM-HMM：用于上下文相关事件检测（Heittola 2010），但需大量标注数据。
 判别式模型：
 - 单类支持向量机（OC-SVM）：通过高斯核分离正常与异常样本（Erfani 2016结合DBN提升高维数据鲁棒性）。
 深度学习方法：
 - CRNN（卷积循环神经网络）：联合优化事件分类与时间定位（Phan 2017的多任务损失函数）。
 - GAN与VAE：如Chen 2020的GM-GAN通过对抗训练重构谱图，结合GMM密度估计提升异常检测。
 少样本学习：
 - SPIDERnet：基于VAE和注意力机制，仅需单样本训练（Koizumi 2021）。
5. 应用场景工业监测：ToyADMOS数据集（Koizumi 2019）用于电机异常检测，MIMII数据集（Purohit 2019）用于阀门/泵故障诊断。
 
交通监控：MIVIA数据集（Foggia 2015）检测车辆碰撞，AXA数据集（Sammarco 2018）分析车内撞击音频。
 
医疗健康：PCG（心音图）数据集（如ICBHI 2017）用于心脏病早期诊断。
 
论文价值与意义学术价值：首次全面梳理异常SED的技术链条，指出传统手工特征与深度学习方法的优劣，并提出特征提取与评估指标的标准化框架。
 
应用价值：为工业、交通、医疗等领域提供可落地的技术路线（如半监督学习解决数据稀缺问题）。
 
开放问题：强调多声源分离、动态阈值优化、跨领域迁移学习等未来方向。
 
亮点：
 - 涵盖128篇文献（2013-2021年），62.5%为2017年后成果，反映领域快速发展。
 - 对比不同方法的AUC性能（如Wavenet在DCASE 2017任务2中优于CAE）。
 - 提出“异常定义需动态适应上下文”的核心观点，挑战传统静态定义。
（注：全文共约1500字，符合要求）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问