分享自:

基于RFACONV-CBM-VIT的金属表面缺陷检测增强视觉变换器

期刊:the journal of supercomputingDOI:10.1007/s11227-024-06662-0

学术研究报告:RFACONV-CBM-VIT模型在金属表面缺陷检测中的应用

作者及发表信息

本研究的作者为Hao Wei、Linchang Zhao、Ruiping Li和Mu Zhang,均来自同一研究机构。研究成果发表于The Journal of Supercomputing期刊,2025年第81卷第155页,DOI链接为:10.1007/s11227-024-06662-0

学术背景

金属制造业中,表面缺陷检测对产品质量和生产效率至关重要。传统检测方法依赖人工或基于卷积神经网络(CNN)的算法,但面临缺陷样本不平衡、形态多变等挑战。近年来,视觉Transformer(Vision Transformer, ViT)在图像任务中展现出优势,但其直接应用于金属缺陷检测时存在收敛速度慢、对局部特征捕捉不足等问题。

本研究提出RFACONV-CBM-VIT模型,通过结合感受野注意力卷积(Receptive-Field Attention Convolution, RFAConv)上下文广播中值(Context Broadcasting Median, CBM)模块,提升ViT在金属缺陷检测中的性能。

研究流程

1. 模型设计

(1)RFACONV模块

  • 功能:在ViT的图像块嵌入(Patch Embedding)阶段引入,通过动态调整感受野大小,增强多尺度缺陷特征捕捉能力。
  • 创新点
    • 采用分组卷积(Group Convolution)提取空间特征,通过Softmax加权不同感受野区域。
    • 参数共享机制减少计算开销,模型大小降低0.57M~0.94M参数。
  • 实验验证:在ViT-Base、ViT-Large和ViT-Huge上测试,准确率分别提升0.49%、1.1%和0.99%。

(2)CBM模块

  • 功能:在ViT的多层感知机(MLP)中插入中值令牌(Median Token),降低注意力图密度,抑制噪声干扰。
  • 创新点
    • 中值池化(Median Pooling)替代传统平均池化,减少极端值影响。
    • 在MLP的中间层插入,F1-score最高提升1.2%。
  • 对比实验:与基于众数的CBMO模块相比,CBM在铝表面缺陷数据集上准确率提高0.24%~0.49%。

2. 实验设置

(1)数据集

  • 铝表面缺陷数据集:11类缺陷,2065张图像(训练集1652张,验证集413张)。
  • X-SSD热轧钢带数据集:7类缺陷,1360张图像。
  • 金属螺母缺陷数据集:5类缺陷,3440张图像。

(2)训练参数

  • 输入分辨率:224×224,批量大小16,训练200~300轮次。
  • 优化器:AdamW,初始学习率1e-3,余弦退火调度。
  • 数据增强:随机裁剪、水平翻转、归一化。

3. 性能验证

(1)消融实验

  • RFACONV:在ViT-Base上,铝缺陷检测准确率从96.07%提升至96.56%,ROC曲线下面积(AUC)最高提升24%。
  • CBM:插入MLP中间层时,F1-score从93.7%提升至94.9%。

(2)对比实验

  • 铝表面缺陷:RFACONV-CBM-VIT准确率97.71%,优于ResNet101(95.8%)和ConvNeXtV2(95.6%)。
  • 热轧钢带缺陷:准确率99.25%,接近Mambavision(99.4%),但参数减少12.8%。
  • 螺母缺陷:准确率99.27%,与ConvNeXtV2持平。

主要结果与结论

  1. 性能优势

    • RFACONV通过共享卷积核参数扩大感受野,加速模型收敛(训练时间减少60%)。
    • CBM模块在不增加计算成本的前提下,提升模型对稀疏缺陷的鲁棒性。
  2. 科学价值

    • 首次将感受野注意力与中值令牌结合,解决ViT在金属缺陷检测中的局部特征缺失问题。
    • 为工业质检提供轻量化解决方案,模型代码已开源(GitHub链接)。
  3. 应用前景

    • 可扩展至其他高变异缺陷检测场景,如半导体、纺织品质检。

研究亮点

  1. 方法创新

    • RFACONV模块通过滑动窗口提取空间特征,突破传统卷积的参数共享限制。
    • CBM模块首次将中值池化引入ViT,优化注意力分布。
  2. 工程价值

    • 在三个工业数据集上实现SOTA性能,最高准确率99.71%。
    • 模型复杂度与原始ViT相当,适合实时部署。
  3. 局限性

    • 对极高相似度缺陷(如不同涂层裂纹)的分类仍需改进。未来计划引入多尺度注意力机制进一步优化。

(注:专业术语首次出现时标注英文,如“视觉Transformer(Vision Transformer, ViT)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com