本研究由Kaori Suefusa、Tomoya Nishida、Harsh Purohit、Ryo Tanabe、Takashi Endo和Yohei Kawaguchi共同完成,所有作者均来自Hitachi, Ltd.(日本东京国分寺市东恋洼1-280号)的研究与开发团队。论文发表于2020年 IEEE ICASSP(国际声学、语音与信号处理会议),会议论文编号为271978-1-5090-6631-5/20/$31.00。
研究领域:本研究的核心领域为工业设备健康监测(machine health monitoring),具体聚焦于异常声音检测(anomalous sound detection, ASD)技术。随着劳动力短缺问题加剧,工业界对自动化设备维护的需求日益增长。传统方法依赖人工听诊,但熟练技工数量减少,促使研究者开发基于机器学习的自动化诊断技术。
研究动机:传统异常检测方法(如自编码器,autoencoder, AE)通过重构误差(reconstruction error)判断异常,但存在以下问题:
1. 非平稳声音(non-stationary sound)导致重构误差普遍偏大,掩盖真实异常;
2. 边缘帧(edge frames)预测困难,误差波动显著;
3. 模型参数量大,易陷入平凡解(trivial solution)。
研究目标:提出一种新型插值深度神经网络(Interpolation Deep Neural Network, IDNN),通过预测被移除的中心帧(而非边缘帧)降低误差波动,提升非平稳声音下的检测性能。
核心创新:
- 输入输出结构:输入为去除中心帧的连续多帧梅尔频谱图(log-mel spectrogram),输出为预测的中心帧插值结果(见图2a)。
- 损失函数(公式3):计算预测帧与真实中心帧的均方误差(MSE)。
- 对比方法:
- 预测DNN(PDNN):输入连续多帧,预测下一帧(非插值)(见图3a);
- 变分插值DNN(VIDNN):基于变分自编码器(VAE)的插值框架(见图2b)。
网络结构:
- 编码器(Encoder):3层全连接(FC)网络,维度分别为64-32-16,激活函数为ReLU;
- 解码器(Decoder):对称结构,输出层无激活函数;
- 优化器:Adam,VAE类模型的KL散度权重(公式2中的w)经实验优化为0.01-0.1。
数据集:
- MIMII数据集(表1):包含风扇(fan)、泵(pump)、滑块(slider)和阀门(valve)4类工业设备声音,采样率16 kHz,正常样本24,490段,异常样本5,620段。
- 特征提取:梅尔频谱图(帧长1024,跳数512,64个梅尔滤波器组)。
实验设计:
- 基线方法:传统AE/VAE(输入5帧,重构5帧);
- IDNN/PDNN:输入4帧,输出1帧(中心帧或下一帧);
- 评估指标:AUC(受试者工作特征曲线下面积),重复3次实验取均值。
性能对比(图5-6):
- 非平稳声音(阀门/滑块):IDNN的AUC显著高于AE(阀门提升27%),PDNN次之;
- 平稳声音(风扇/泵):IDNN与AE性能相近;
- VIDNN在阀门数据上优于VAE,但其他设备差异不显著。
可视化分析(图7-8):
- 正常声音:AE与IDNN均能有效去噪,重构误差小;
- 异常声音:IDNN的插值误差显著高于AE,表明其对异常更敏感;
- PDNN因边缘帧预测困难,误差普遍偏大。
科学价值:
- 提出插值误差作为异常评分的新范式,解决了传统重构误差对非平稳信号的敏感性问题;
- 验证了中心帧插值在时序信号处理中的稳定性优势。
应用价值:
- 为工业设备自动化维护提供高鲁棒性检测方案,尤其适用于声音非平稳的复杂场景;
- 模型轻量化设计便于嵌入式部署。
本研究为工业异常检测提供了新思路,未来可探索更复杂的时序建模(如注意力机制)以进一步提升性能。