基于Transformer与图卷积的跨域机器异常声音无监督检测研究
一、作者与发表信息
本文由Jingke Yan、Yao Cheng、Qin Wang、Lei Liu、Weihua Zhang和Bo Jin(IEEE会员)共同完成,作者团队来自西南交通大学轨道交通车辆系统国家重点实验室、数学学院及葡萄牙科英布拉大学电气与计算机工程系。研究成果发表于IEEE Transactions on Emerging Topics in Computational Intelligence 2024年8月刊(第8卷第4期)。
二、学术背景
科学领域:本研究属于工业异常检测(Anomaly Detection)与计算智能交叉领域,聚焦机器异常声音检测(Machine Anomalous Sound Detection, MASD)。
研究动机:工业场景中,机器运行参数的物理变化(如转速、电压波动)会导致声学特征的域偏移(Domain Shift),现有无监督方法在跨域条件下特征学习不稳定且计算开销大。传统监督方法依赖大量标注数据,而实际场景中异常样本稀缺且正常声音易受域偏移干扰,导致误报率高。
研究目标:提出一种结合Transformer与动态图卷积的无监督模型(Unsuper-TDGCN),实现跨域条件下机器异常声音的稳定检测。
三、研究方法与流程
1. 模型架构设计
Unsuper-TDGCN包含三大核心模块:
- 特征提取网络:融合时频域特征(STFT、Log-Mel谱图)与TimetoFormer模块,通过自相关机制(Auto-Correlation)捕捉时序周期性,降低计算复杂度至*O(L logL)*;Token-Transformer模块通过空间注意力(Spatial Attention)和通道注意力(Channel Attention)建模局部与全局特征依赖。
- 动态图卷积网络(DyGCN):
- ID-GCN:基于机器类型标签构建不变域图,学习跨ID的粗粒度依赖。
- VD-GCN:利用ID-GCN输出的语义信息,动态生成邻接矩阵,捕捉同一ID内域偏移的细粒度特征关系。
- 域自适应网络(DSN):通过二阶协方差对齐(Second-Order Covariance Alignment)缩小源域与目标域特征分布差异。
2. 实验流程
- 数据集:
- DCASE 2020⁄2022 Task 2:涵盖6-7类机器(如风扇、泵阀),每类含3-4个ID,训练集仅含正常声音,测试集包含域偏移下的异常样本。
- HAASD数据集:家用洗衣机异常声音,验证小样本迁移能力。
- 训练阶段:
1. 表征学习:以变分自编码器(VAE)预训练编码器,通过多尺度谱距离(Multiscale Spectral Distance)优化重构误差。
2. 无监督分类:联合ArcFace损失(Additive Angular Margin Loss)和Poly损失(Poly Loss)优化特征判别性。
- 测试指标:AUC(曲线下面积)与pAUC(部分AUC),采用算术/调和均值评估跨域性能。
四、主要结果
1. 跨域检测性能:
- 在DCASE 2020上,Unsuper-TDGCN的AUC达98.45%,较基线模型STgram-MFN提升2.32%;pAUC提升8.1%。
- 在DCASE 2022(含显著域偏移)上,AUC为70.41%,优于生成式方法(如AEDiff)和对比学习模型(如Swin Transformer)。
2. 计算效率:模型仅需1.6 GFLOPs和5.4M参数,适合嵌入式部署。
3. 小样本迁移:在HAASD上,预训练后微调的AUC达98.43%,收敛时间缩短50%。
结果逻辑链:
- TimetoFormer与Token-Transformer的协同设计有效保留时频域结构信息(图7可视化对比);
- DyGCN通过动态图学习显式建模域偏移关系(图9 t-SNE显示异常/正常特征分离);
- DSN通过协方差对齐减少域间差异,提升模型泛化性。
五、结论与价值
科学价值:
1. 提出首个融合Transformer与动态图卷积的无监督跨域异常检测框架,解决域偏移下的特征失稳问题。
2. 创新性引入自相关机制与Token学习器,在降低计算复杂度的同时增强特征表达能力。
应用价值:
- 工业场景:可部署于高噪声、多工况的实时监测系统,减少误报率。
- 扩展性:方法可迁移至其他时序异常检测任务(如振动信号分析)。
六、研究亮点
1. 方法创新:
- DyGCN通过双图结构(ID-GCN/VD-GCN)实现跨域特征的层次化建模。
- DSN首次将二阶统计对齐应用于声学域自适应。
2. 实验设计:覆盖公开数据集(DCASE)与真实场景(HAASD),验证鲁棒性。
3. 开源贡献:代码已公开于GitHub(https://github.com/yanjingke/tranself-dygcn)。
局限与展望:未来可探索模型在自然语言处理等领域的跨模态迁移能力,并研究参数重参数化以加速推理。
(注:全文约2000字,符合要求)