分享自:

基于改进RT-DETR的轻量高效工业组件缺陷检测模型CEH-RTDETR

期刊:signal, image and video processingDOI:10.1007/s11760-025-04548-z

基于改进RT-DETR的轻量化工业零件缺陷检测模型CEH-RTDETR研究报告

作者与发表信息

本研究的核心作者团队来自沈阳理工大学信息科学与工程学院(Leda Qu、Feng Wen、Fang Peng)和自动化与电气工程学院(Haixin Huang),研究成果以《CEH-RTDETR: A Lightweight and Efficient Industrial Component Defect Detection Model Based on Improved RT-DETR》为题,于2025年7月30日发表于期刊《Signal, Image and Video Processing》(2025年第19卷,第952页)。

学术背景

研究领域与动机
工业零件缺陷检测是智能制造质量控制的核心环节,但传统方法在检测多尺度缺陷(如划痕、油墨污渍等)时存在漏检率高、计算冗余等问题。尽管YOLO系列模型在实时检测中表现优异,但其依赖非极大值抑制(Non-Maximum Suppression, NMS)的机制增加了计算负担。相比之下,基于Transformer的检测模型DETR(Detection Transformer)虽能避免NMS,但存在计算成本高的问题。RT-DETR作为DETR的实时改进版本,尚未充分优化工业场景中的多尺度缺陷检测需求。

技术背景
1. RT-DETR模型:通过混合编码器(AIFI+CCFM模块)实现多尺度特征融合,但多头自注意力机制(Multi-Head Self-Attention, MHSA)存在计算冗余。
2. 特征金字塔网络(Feature Pyramid Network, FPN):传统FPN通过自上而下的上采样与横向连接融合多尺度特征,但对工业缺陷的局部特征捕捉不足。
3. 注意力机制:常规自注意力机制(如MHSA)因头部相似性导致冗余,而级联分组注意力(Cascaded Group Attention, CGA)通过特征分组可提升效率。

研究目标
开发一种轻量化、高精度的工业缺陷检测模型CEH-RTDETR,通过改进RT-DETR的CCFM和AIFI模块,解决多尺度缺陷漏检问题,并降低计算负载。

研究方法与流程

1. 模型整体架构

CEH-RTDETR以ResNet18为骨干网络,包含两大改进模块:
- CGAIFI模块:替换原AIFI模块,引入级联分组注意力(CGA)以减少MHSA冗余。
- E-FPN模块:将高效局部注意力(Efficient Local Attention, ELA)融入高层筛选特征金字塔网络(HS-FPN),替代原CCFM模块。

2. CGAIFI模块设计

核心改进
- 特征分组处理:将输入特征拆分为多个子组,每组仅处理部分特征,通过级联方式逐步聚合注意力结果。
- 计算流程
1. 对骨干网络输出的高层特征图S5进行1×1卷积降维(式1)。
2. 将特征展平后输入CGA模块,每组子头独立计算注意力权重(式3)。
3. 通过残差连接与层归一化(LayerNorm)输出增强后的特征F5(式4)。

技术优势:相比传统MHSA,参数量减少17.86万,GFLOPs降低3.5。

3. E-FPN模块设计

核心改进
- 高效局部注意力(ELA):在3×3窗口内计算局部注意力,增强对缺陷细微特征的捕捉能力。
- 双向特征融合:通过上采样与下采样操作融合S3、S4、F5层特征(式7-10),结合选择性特征融合(Selective Feature Fusion, SFF)机制优化跨尺度信息整合。

实验验证
- 数据集:包含5,000张光学零件图像,涵盖9类缺陷(如边缘损伤、划痕、漏光等),按7:2:1划分训练/验证/测试集。
- 评估指标:mAP@0.5、mAP@0.5-0.95、参数量、GFLOPs及FPS。

主要结果

  1. 性能对比实验

    • CEH-RTDETR在mAP@0.5和mAP@0.5-0.95上分别达到72.6%和55.9%,较原RT-DETR-R18提升5.1%和5.6%。
    • 参数量(1809万)和GFLOPs(53.5)显著低于对比模型(如RT-DETR-R50的4197万参数)。
    • 实时性达106.4 FPS,优于YOLOv8m(100 FPS)。
  2. 消融实验

    • 单独引入E-FPN模块时,mAP@0.5提升至71.0%;结合CGAIFI后进一步增至72.6%。
    • 热图对比显示,CEH-RTDETR对“灰色油墨污渍”等小缺陷的检测置信度明显高于基线模型。

结论与价值

科学价值
1. 提出E-FPN与CGAIFI模块,为多尺度工业缺陷检测提供了一种兼顾精度与效率的解决方案。
2. 验证了注意力机制分组化与局部化的有效性,为轻量化Transformer模型设计提供新思路。

应用价值
模型在减少漏检的同时降低计算成本,适合部署于资源受限的工业设备(如生产线质检终端)。

研究亮点

  1. 创新方法
    • 首次将ELA注意力与HS-FPN结合,构建E-FPN模块,提升多尺度缺陷识别能力。
    • 在RT-DETR中引入CGA机制,减少注意力冗余,较传统MHSA计算效率提升15%。
  2. 数据集贡献:公开了涵盖9类工业缺陷的标注数据集,推动领域研究。

局限与展望

当前模型对边缘损伤等罕见缺陷的检测仍受限(训练数据不足)。未来计划结合数据增强与小样本学习进一步优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com