本研究的核心作者团队来自沈阳理工大学信息科学与工程学院(Leda Qu、Feng Wen、Fang Peng)和自动化与电气工程学院(Haixin Huang),研究成果以《CEH-RTDETR: A Lightweight and Efficient Industrial Component Defect Detection Model Based on Improved RT-DETR》为题,于2025年7月30日发表于期刊《Signal, Image and Video Processing》(2025年第19卷,第952页)。
研究领域与动机
工业零件缺陷检测是智能制造质量控制的核心环节,但传统方法在检测多尺度缺陷(如划痕、油墨污渍等)时存在漏检率高、计算冗余等问题。尽管YOLO系列模型在实时检测中表现优异,但其依赖非极大值抑制(Non-Maximum Suppression, NMS)的机制增加了计算负担。相比之下,基于Transformer的检测模型DETR(Detection Transformer)虽能避免NMS,但存在计算成本高的问题。RT-DETR作为DETR的实时改进版本,尚未充分优化工业场景中的多尺度缺陷检测需求。
技术背景
1. RT-DETR模型:通过混合编码器(AIFI+CCFM模块)实现多尺度特征融合,但多头自注意力机制(Multi-Head Self-Attention, MHSA)存在计算冗余。
2. 特征金字塔网络(Feature Pyramid Network, FPN):传统FPN通过自上而下的上采样与横向连接融合多尺度特征,但对工业缺陷的局部特征捕捉不足。
3. 注意力机制:常规自注意力机制(如MHSA)因头部相似性导致冗余,而级联分组注意力(Cascaded Group Attention, CGA)通过特征分组可提升效率。
研究目标
开发一种轻量化、高精度的工业缺陷检测模型CEH-RTDETR,通过改进RT-DETR的CCFM和AIFI模块,解决多尺度缺陷漏检问题,并降低计算负载。
CEH-RTDETR以ResNet18为骨干网络,包含两大改进模块:
- CGAIFI模块:替换原AIFI模块,引入级联分组注意力(CGA)以减少MHSA冗余。
- E-FPN模块:将高效局部注意力(Efficient Local Attention, ELA)融入高层筛选特征金字塔网络(HS-FPN),替代原CCFM模块。
核心改进:
- 特征分组处理:将输入特征拆分为多个子组,每组仅处理部分特征,通过级联方式逐步聚合注意力结果。
- 计算流程:
1. 对骨干网络输出的高层特征图S5进行1×1卷积降维(式1)。
2. 将特征展平后输入CGA模块,每组子头独立计算注意力权重(式3)。
3. 通过残差连接与层归一化(LayerNorm)输出增强后的特征F5(式4)。
技术优势:相比传统MHSA,参数量减少17.86万,GFLOPs降低3.5。
核心改进:
- 高效局部注意力(ELA):在3×3窗口内计算局部注意力,增强对缺陷细微特征的捕捉能力。
- 双向特征融合:通过上采样与下采样操作融合S3、S4、F5层特征(式7-10),结合选择性特征融合(Selective Feature Fusion, SFF)机制优化跨尺度信息整合。
实验验证:
- 数据集:包含5,000张光学零件图像,涵盖9类缺陷(如边缘损伤、划痕、漏光等),按7:2:1划分训练/验证/测试集。
- 评估指标:mAP@0.5、mAP@0.5-0.95、参数量、GFLOPs及FPS。
性能对比实验:
消融实验:
科学价值:
1. 提出E-FPN与CGAIFI模块,为多尺度工业缺陷检测提供了一种兼顾精度与效率的解决方案。
2. 验证了注意力机制分组化与局部化的有效性,为轻量化Transformer模型设计提供新思路。
应用价值:
模型在减少漏检的同时降低计算成本,适合部署于资源受限的工业设备(如生产线质检终端)。
当前模型对边缘损伤等罕见缺陷的检测仍受限(训练数据不足)。未来计划结合数据增强与小样本学习进一步优化。