基于RFACONV-CBM-VIT的金属表面缺陷检测增强视觉变换器

分享自：

基于RFACONV-CBM-VIT的金属表面缺陷检测增强视觉变换器

人工智能

信息科学

金属材料

材料学

计算机科学

期刊:the journal of supercomputingDOI:10.1007/s11227-024-06662-0

【点击此处】阅读全文、收藏及针对性提问

学术研究报告：RFACONV-CBM-VIT模型在金属表面缺陷检测中的应用作者及发表信息本研究的作者为Hao Wei、Linchang Zhao、Ruiping Li和Mu Zhang，均来自同一研究机构。研究成果发表于The Journal of Supercomputing期刊，2025年第81卷第155页，DOI链接为：10.1007/s11227-024-06662-0。
学术背景金属制造业中，表面缺陷检测对产品质量和生产效率至关重要。传统检测方法依赖人工或基于卷积神经网络（CNN）的算法，但面临缺陷样本不平衡、形态多变等挑战。近年来，视觉Transformer（Vision Transformer, ViT）在图像任务中展现出优势，但其直接应用于金属缺陷检测时存在收敛速度慢、对局部特征捕捉不足等问题。
本研究提出RFACONV-CBM-VIT模型，通过结合感受野注意力卷积（Receptive-Field Attention Convolution, RFAConv）和上下文广播中值（Context Broadcasting Median, CBM）模块，提升ViT在金属缺陷检测中的性能。
研究流程1. 模型设计（1）RFACONV模块功能：在ViT的图像块嵌入（Patch Embedding）阶段引入，通过动态调整感受野大小，增强多尺度缺陷特征捕捉能力。
 
创新点：
 采用分组卷积（Group Convolution）提取空间特征，通过Softmax加权不同感受野区域。
 
参数共享机制减少计算开销，模型大小降低0.57M~0.94M参数。
 
实验验证：在ViT-Base、ViT-Large和ViT-Huge上测试，准确率分别提升0.49%、1.1%和0.99%。
 
（2）CBM模块功能：在ViT的多层感知机（MLP）中插入中值令牌（Median Token），降低注意力图密度，抑制噪声干扰。
 
创新点：
 中值池化（Median Pooling）替代传统平均池化，减少极端值影响。
 
在MLP的中间层插入，F1-score最高提升1.2%。
 
对比实验：与基于众数的CBMO模块相比，CBM在铝表面缺陷数据集上准确率提高0.24%~0.49%。
 
2. 实验设置（1）数据集铝表面缺陷数据集：11类缺陷，2065张图像（训练集1652张，验证集413张）。
 
X-SSD热轧钢带数据集：7类缺陷，1360张图像。
 
金属螺母缺陷数据集：5类缺陷，3440张图像。
 
（2）训练参数输入分辨率：224×224，批量大小16，训练200~300轮次。
 
优化器：AdamW，初始学习率1e-3，余弦退火调度。
 
数据增强：随机裁剪、水平翻转、归一化。
 
3. 性能验证（1）消融实验RFACONV：在ViT-Base上，铝缺陷检测准确率从96.07%提升至96.56%，ROC曲线下面积（AUC）最高提升24%。
 
CBM：插入MLP中间层时，F1-score从93.7%提升至94.9%。
 
（2）对比实验铝表面缺陷：RFACONV-CBM-VIT准确率97.71%，优于ResNet101（95.8%）和ConvNeXtV2（95.6%）。
 
热轧钢带缺陷：准确率99.25%，接近Mambavision（99.4%），但参数减少12.8%。
 
螺母缺陷：准确率99.27%，与ConvNeXtV2持平。
 
主要结果与结论性能优势：
RFACONV通过共享卷积核参数扩大感受野，加速模型收敛（训练时间减少60%）。
 
CBM模块在不增加计算成本的前提下，提升模型对稀疏缺陷的鲁棒性。
 
科学价值：
首次将感受野注意力与中值令牌结合，解决ViT在金属缺陷检测中的局部特征缺失问题。
 
为工业质检提供轻量化解决方案，模型代码已开源（GitHub链接）。
 
应用前景：
可扩展至其他高变异缺陷检测场景，如半导体、纺织品质检。
 
研究亮点方法创新：
RFACONV模块通过滑动窗口提取空间特征，突破传统卷积的参数共享限制。
 
CBM模块首次将中值池化引入ViT，优化注意力分布。
 
工程价值：
在三个工业数据集上实现SOTA性能，最高准确率99.71%。
 
模型复杂度与原始ViT相当，适合实时部署。
 
局限性：
对极高相似度缺陷（如不同涂层裂纹）的分类仍需改进。未来计划引入多尺度注意力机制进一步优化。
 
（注：专业术语首次出现时标注英文，如“视觉Transformer（Vision Transformer, ViT）”）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问