学术研究报告:RFACONV-CBM-VIT模型在金属表面缺陷检测中的应用
作者及发表信息
本研究的作者为Hao Wei、Linchang Zhao、Ruiping Li和Mu Zhang,均来自同一研究机构。研究成果发表于The Journal of Supercomputing期刊,2025年第81卷第155页,DOI链接为:10.1007/s11227-024-06662-0。
学术背景
金属制造业中,表面缺陷检测对产品质量和生产效率至关重要。传统检测方法依赖人工或基于卷积神经网络(CNN)的算法,但面临缺陷样本不平衡、形态多变等挑战。近年来,视觉Transformer(Vision Transformer, ViT)在图像任务中展现出优势,但其直接应用于金属缺陷检测时存在收敛速度慢、对局部特征捕捉不足等问题。
本研究提出RFACONV-CBM-VIT模型,通过结合感受野注意力卷积(Receptive-Field Attention Convolution, RFAConv)和上下文广播中值(Context Broadcasting Median, CBM)模块,提升ViT在金属缺陷检测中的性能。
研究流程
1. 模型设计
(1)RFACONV模块
- 功能:在ViT的图像块嵌入(Patch Embedding)阶段引入,通过动态调整感受野大小,增强多尺度缺陷特征捕捉能力。
- 创新点:
- 采用分组卷积(Group Convolution)提取空间特征,通过Softmax加权不同感受野区域。
- 参数共享机制减少计算开销,模型大小降低0.57M~0.94M参数。
- 实验验证:在ViT-Base、ViT-Large和ViT-Huge上测试,准确率分别提升0.49%、1.1%和0.99%。
(2)CBM模块
- 功能:在ViT的多层感知机(MLP)中插入中值令牌(Median Token),降低注意力图密度,抑制噪声干扰。
- 创新点:
- 中值池化(Median Pooling)替代传统平均池化,减少极端值影响。
- 在MLP的中间层插入,F1-score最高提升1.2%。
- 对比实验:与基于众数的CBMO模块相比,CBM在铝表面缺陷数据集上准确率提高0.24%~0.49%。
2. 实验设置
(1)数据集
- 铝表面缺陷数据集:11类缺陷,2065张图像(训练集1652张,验证集413张)。
- X-SSD热轧钢带数据集:7类缺陷,1360张图像。
- 金属螺母缺陷数据集:5类缺陷,3440张图像。
(2)训练参数
- 输入分辨率:224×224,批量大小16,训练200~300轮次。
- 优化器:AdamW,初始学习率1e-3,余弦退火调度。
- 数据增强:随机裁剪、水平翻转、归一化。
3. 性能验证
(1)消融实验
- RFACONV:在ViT-Base上,铝缺陷检测准确率从96.07%提升至96.56%,ROC曲线下面积(AUC)最高提升24%。
- CBM:插入MLP中间层时,F1-score从93.7%提升至94.9%。
(2)对比实验
- 铝表面缺陷:RFACONV-CBM-VIT准确率97.71%,优于ResNet101(95.8%)和ConvNeXtV2(95.6%)。
- 热轧钢带缺陷:准确率99.25%,接近Mambavision(99.4%),但参数减少12.8%。
- 螺母缺陷:准确率99.27%,与ConvNeXtV2持平。
主要结果与结论
性能优势:
- RFACONV通过共享卷积核参数扩大感受野,加速模型收敛(训练时间减少60%)。
- CBM模块在不增加计算成本的前提下,提升模型对稀疏缺陷的鲁棒性。
科学价值:
- 首次将感受野注意力与中值令牌结合,解决ViT在金属缺陷检测中的局部特征缺失问题。
- 为工业质检提供轻量化解决方案,模型代码已开源(GitHub链接)。
应用前景:
- 可扩展至其他高变异缺陷检测场景,如半导体、纺织品质检。
研究亮点
方法创新:
- RFACONV模块通过滑动窗口提取空间特征,突破传统卷积的参数共享限制。
- CBM模块首次将中值池化引入ViT,优化注意力分布。
工程价值:
- 在三个工业数据集上实现SOTA性能,最高准确率99.71%。
- 模型复杂度与原始ViT相当,适合实时部署。
局限性:
- 对极高相似度缺陷(如不同涂层裂纹)的分类仍需改进。未来计划引入多尺度注意力机制进一步优化。
(注:专业术语首次出现时标注英文,如“视觉Transformer(Vision Transformer, ViT)”)