分享自:

基于改进RT-DETR模型的建筑工地小目标检测

期刊:2025 11th international conference on computing and artificial intelligence (iccai)DOI:10.1109/iccai66501.2025.00015

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


一、作者及发表信息

本研究由Gan Zhang(武汉理工大学,邮箱:334672@whut.edu.cn)和Xi Zhao(武汉理工大学)合作完成,发表于2025年第11届国际计算与人工智能会议(ICCAI),会议论文DOI编号为10.1109/ICCAI66501.2025.00015。


二、学术背景

研究领域与动机

研究聚焦于计算机视觉中的小目标检测(Small Object Detection, SOD),特别针对建筑工地复杂场景下的安全监控需求。背景知识显示,传统目标检测方法(如YOLO系列)在建筑工地环境中存在明显缺陷:
1. 小目标漏检率高:工人、安全帽等目标在图像中占比小(如SODa数据集中1/3为远距离拍摄图像);
2. 复杂背景干扰:遮挡、多尺度物体共存(如脚手架、材料堆叠)导致误检;
3. 实时性要求:现有模型(如RT-DETR)在精度与速度间难以平衡。

研究目标

提出一种改进的RT-DETR(Real-Time Detection Transformer)模型,通过优化特征融合与损失函数,提升小目标检测精度,同时保持实时性,为工地安全管理提供可靠技术方案。


三、研究流程与方法

1. 模型改进设计

  • 特征提取网络:采用HGNetV2作为主干网络,通过StemBlockHGStage模块提取多尺度特征,增强局部与全局几何信息捕获能力。
  • 改进的RepCA-FPN编码器
    • 替换原RT-DETR的CCFF模块,引入CSP-Fusion结构(图3),通过1×1卷积分割特征并融合多尺度信息;
    • 集成CARAFE(Content-Aware Reassembly of Features)上采样技术,提升小目标细节重建精度;
    • 采用重参数化技术优化计算效率,参数量仅增加3.4%(32.84M→33.96M)。
  • 损失函数优化:提出InnerCIoU损失(公式6-11),通过引入辅助边界框(ratio∈[0.5,1.5])解决GIoU在完全覆盖场景下梯度失效问题(图4),加速低IoU样本回归。

2. 实验设计

  • 数据集:使用公开数据集SODa(19846张图像,15类目标,286201标注实例),涵盖近距离、无人机视角等多样化场景(图5)。
  • 对比模型:包括YOLOv8、RT-DETR-ResNet18、YOLOv6及原RT-DETR。
  • 评估指标:mAP@0.5、FPS、参数量(Params)、计算量(GFLOPs)。
  • 超参数设置:初始学习率0.0001(AdamW优化器),输入尺寸640×640,训练100 epoch,采用余弦退火学习率调度。

3. 数据分析流程

  • 性能对比:通过混淆矩阵(图7)和PR曲线(图6)量化检测精度;
  • 消融实验(表4):逐步验证InnerCIoU和RepCA-FPN的贡献;
  • 实时性测试:在NVIDIA A100 GPU上测量FPS。

四、主要结果

  1. 精度提升:改进模型mAP@0.5达85.6%,较基线RT-DETR(82.9%)提升2.7%,关键类别(工人、安全帽)检测精度提高1.4%~1.5%(图8);
  2. 小目标检测优势:在遮挡场景(图8a)中,改进模型成功识别原模型漏检目标(如标语牌、被遮挡工人);
  3. 计算效率:参数量33.96M,GFLOPs 103.5,推理速度34.6 FPS,虽低于YOLOv8(83.9 FPS),但精度显著领先(表3);
  4. SOTA对比:优于MB方法(85.27% mAP,61.98M参数)等现有方法(表2),实现精度与复杂度的平衡。

五、结论与价值

科学价值

  1. 方法创新:RepCA-FPN通过多尺度特征自适应融合,解决了复杂背景下小目标特征表达不足的问题;
  2. 理论贡献:InnerCIoU损失函数为小目标定位提供了更稳健的梯度更新机制。

应用价值

为建筑工地安全监控提供高精度检测工具,可有效识别未佩戴安全装备的工人(据文献[5],67.95%事故与未戴头盔相关),降低事故风险。


六、研究亮点

  1. 多尺度特征融合优化:RepCA-FPN通过独立通道配置和CSPNet改进,显著提升小目标特征提取能力;
  2. 损失函数创新:InnerCIoU首次在RT-DETR中引入动态辅助框机制,解决GIoU退化问题;
  3. 工程实用性:在精度提升的同时,计算复杂度增幅可控(GFLOPs+10.3%),适合实际部署。

七、其他价值

研究局限性在于推理速度仍需优化,未来计划通过压缩RepCA-FPN冗余计算进一步提升实时性。此外,模型在无人机视角(SODa数据集的7%)下的泛化性值得进一步验证。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com