分享自:

基于Transformer和图卷积的域偏移下机器异常声音无监督检测

期刊:ieee transactions on emerging topics in computational intelligenceDOI:10.1109/tetci.2024.3377728

《IEEE Transactions on Emerging Topics in Computational Intelligence》2024年8月刊发表了一项名为《Transformer and Graph Convolution-Based Unsupervised Detection of Machine Anomalous Sound Under Domain Shifts》的原创研究,由西南交通大学轨道交通车辆系统国家重点实验室的Jingke Yan、Yao Cheng、Weihua Zhang团队联合葡萄牙科英布拉大学Bo Jin等学者共同完成。该研究针对工业设备异常声音检测(Machine Anomalous Sound Detection, MASD)中存在的领域偏移(Domain Shifts)问题,提出了一种基于Transformer与动态图卷积的无监督检测模型Unsuper-TDGCN。以下从七个方面展开详细报告:


一、研究团队与发表信息

第一作者Jingke Yan为西南交通大学博士研究生,通讯作者Yao Cheng教授长期从事高速列车在线监测与故障诊断研究。论文发表于《IEEE Transactions on Emerging Topics in Computational Intelligence》第8卷第4期(2024年8月),获中国国家自然科学基金(52202424)、四川省科技计划(2022JDrc0067)等多项资助,代码已开源。


二、学术背景

科学领域:本研究属于工业异常检测与计算智能交叉领域,核心挑战是机器运行参数变化导致的声学特征偏移问题。传统监督学习方法在领域偏移下误报率高,而无监督方法存在特征提取不稳定、计算开销大等缺陷。

研究动机:工业场景中,异常声音样本稀缺且正常声音会因工况参数(如转速、电压)变化产生波动,导致监督学习失效。现有无监督方法难以稳定学习领域偏移下的特征,且缺乏对机器类型标签(Type Labels)和机器身份标签(ID Labels)的语义关系建模能力。

目标:提出Unsuper-TDGCN模型,实现三大创新:(1)融合时频域全局与局部特征;(2)动态建模领域偏移下的特征依赖;(3)通过域自适应网络减少特征分布差异。


三、研究流程与方法

1. 特征提取网络设计

  • TimeToFormer模块

    • 输入处理:10秒音频片段,通过STFT(短时傅里叶变换)和Log-Mel谱图提取时频特征(维度128×311)。
    • 创新方法:采用自相关机制(Auto-Correlation)替代传统Transformer注意力,计算复杂度降至O(L logL),通过滑动窗口聚合相位相似子序列(公式4)。
    • 系列分解:使用全局平均池化(GAP)分离周期性波动特征与长期稳定特征(公式5)。
  • Token-Transformer模块

    • Focus模块:将时频特征投影至高维空间(维度L×C×D),通过切片操作保留局部结构。
    • Token学习器:基于空间注意力机制筛选重要Token,利用Transformer编码器建模全局关系(图4)。

2. 动态图卷积网络(DyGCN)

  • ID-GCN模块
    • 构建机器类型标签的关联矩阵,通过空间注意力机制提取不同机器ID的共享特征(公式8-9)。
  • VD-GCN模块
    • 利用ID-GCN输出的语义信息,动态生成领域偏移下的细粒度依赖关系图(公式11-12)。

3. 域自适应网络(DSN)

  • 数据增强:采用音高偏移、时间拉伸、高斯白噪声注入等技术生成领域偏移样本。
  • 二阶协方差对齐:计算源域与目标域特征的协方差矩阵差异,最小化分布距离(公式13)。

4. 两阶段训练策略

  • 表征学习阶段:使用变分自编码器(VAE)预训练编码器,通过多尺度谱距离(Multiscale Spectral Distance)优化重构误差(公式14)。
  • 无监督分类阶段:结合加性角度间隔损失(AAM Loss)与Poly Loss函数优化特征判别性(公式15-16)。

四、主要结果

  1. 时频特征提取效果

    • TimeToFormer在DCASE2022数据集上比传统Transformer的AUC提升1.45%(70.41% vs. 68.96%),参数量减少1.4M(表IV)。
    • 可视化显示其能更好捕捉周期性特征(图7)。
  2. 领域偏移适应性

    • DyGCN使模型在DCASE2020任务2的PAUC提升8.1%,ID-GCN与VD-GCN分别贡献2.98%和3.99%性能增益(表VI)。
    • t-SNE聚类显示正常与异常声音特征显著分离(图9)。
  3. 跨数据集验证

    • 在HAASD数据集上,预训练模型仅需1小时微调即达到98.45% AUC,证明强泛化能力(表VIII)。

五、结论与价值

科学价值
- 首次将动态图卷积引入异常声音检测,解决了领域偏移下的特征漂移问题。
- 提出的TimeToFormer为长序列时频分析提供了轻量化解决方案。

应用价值
- 模型参数量仅5.4M(图6),可部署于嵌入式设备,适用于工厂实时监测。
- 开源代码(GitHub仓库)推动工业异常检测社区发展。


六、研究亮点

  1. 方法创新

    • 融合自相关机制与Token-Transformer,平衡全局与局部特征建模。
    • DyGCN通过动态图结构实现跨领域语义传递。
  2. 性能优势

    • 在DCASE2022任务2上以70.41% AUC超越AEDiff等生成式方法(表III)。
    • 计算效率较Flow-Based模型提升3倍(1.6G FLOPs)。

七、其他价值

  • 提出的二阶协方差对齐方法可迁移至其他跨域诊断任务。
  • 研究局限性包括未探索模型重参数化加速推理,未来计划拓展至自然语言处理等领域。

(报告全文约2200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com