基于改进RT-DETR模型的建筑工地小目标检测

分享自：
基于改进RT-DETR模型的建筑工地小目标检测

期刊:2025 11th international conference on computing and artificial intelligence (iccai)DOI:10.1109/iccai66501.2025.00015
本文档属于类型a（单篇原创研究论文），以下是针对该研究的学术报告：
一、作者及发表信息本研究由Gan Zhang（武汉理工大学，邮箱：334672@whut.edu.cn）和Xi Zhao（武汉理工大学）合作完成，发表于2025年第11届国际计算与人工智能会议（ICCAI），会议论文DOI编号为10.1109/ICCAI66501.2025.00015。
二、学术背景研究领域与动机研究聚焦于计算机视觉中的小目标检测（Small Object Detection, SOD），特别针对建筑工地复杂场景下的安全监控需求。背景知识显示，传统目标检测方法（如YOLO系列）在建筑工地环境中存在明显缺陷：
 1. 小目标漏检率高：工人、安全帽等目标在图像中占比小（如SODa数据集中1/3为远距离拍摄图像）；
 2. 复杂背景干扰：遮挡、多尺度物体共存（如脚手架、材料堆叠）导致误检；
 3. 实时性要求：现有模型（如RT-DETR）在精度与速度间难以平衡。
研究目标提出一种改进的RT-DETR（Real-Time Detection Transformer）模型，通过优化特征融合与损失函数，提升小目标检测精度，同时保持实时性，为工地安全管理提供可靠技术方案。
三、研究流程与方法1. 模型改进设计特征提取网络：采用HGNetV2作为主干网络，通过StemBlock和HGStage模块提取多尺度特征，增强局部与全局几何信息捕获能力。
 
改进的RepCA-FPN编码器：
 替换原RT-DETR的CCFF模块，引入CSP-Fusion结构（图3），通过1×1卷积分割特征并融合多尺度信息；
 
集成CARAFE（Content-Aware Reassembly of Features）上采样技术，提升小目标细节重建精度；
 
采用重参数化技术优化计算效率，参数量仅增加3.4%（32.84M→33.96M）。
 
损失函数优化：提出InnerCIoU损失（公式6-11），通过引入辅助边界框（ratio∈[0.5,1.5]）解决GIoU在完全覆盖场景下梯度失效问题（图4），加速低IoU样本回归。
 
2. 实验设计数据集：使用公开数据集SODa（19846张图像，15类目标，286201标注实例），涵盖近距离、无人机视角等多样化场景（图5）。
 
对比模型：包括YOLOv8、RT-DETR-ResNet18、YOLOv6及原RT-DETR。
 
评估指标：mAP@0.5、FPS、参数量（Params）、计算量（GFLOPs）。
 
超参数设置：初始学习率0.0001（AdamW优化器），输入尺寸640×640，训练100 epoch，采用余弦退火学习率调度。
 
3. 数据分析流程性能对比：通过混淆矩阵（图7）和PR曲线（图6）量化检测精度；
 
消融实验（表4）：逐步验证InnerCIoU和RepCA-FPN的贡献；
 
实时性测试：在NVIDIA A100 GPU上测量FPS。
 
四、主要结果精度提升：改进模型mAP@0.5达85.6%，较基线RT-DETR（82.9%）提升2.7%，关键类别（工人、安全帽）检测精度提高1.4%~1.5%（图8）；
 
小目标检测优势：在遮挡场景（图8a）中，改进模型成功识别原模型漏检目标（如标语牌、被遮挡工人）；
 
计算效率：参数量33.96M，GFLOPs 103.5，推理速度34.6 FPS，虽低于YOLOv8（83.9 FPS），但精度显著领先（表3）；
 
SOTA对比：优于MB方法（85.27% mAP，61.98M参数）等现有方法（表2），实现精度与复杂度的平衡。
 
五、结论与价值科学价值方法创新：RepCA-FPN通过多尺度特征自适应融合，解决了复杂背景下小目标特征表达不足的问题；
 
理论贡献：InnerCIoU损失函数为小目标定位提供了更稳健的梯度更新机制。
 
应用价值为建筑工地安全监控提供高精度检测工具，可有效识别未佩戴安全装备的工人（据文献[5]，67.95%事故与未戴头盔相关），降低事故风险。
六、研究亮点多尺度特征融合优化：RepCA-FPN通过独立通道配置和CSPNet改进，显著提升小目标特征提取能力；
 
损失函数创新：InnerCIoU首次在RT-DETR中引入动态辅助框机制，解决GIoU退化问题；
 
工程实用性：在精度提升的同时，计算复杂度增幅可控（GFLOPs+10.3%），适合实际部署。
 
七、其他价值研究局限性在于推理速度仍需优化，未来计划通过压缩RepCA-FPN冗余计算进一步提升实时性。此外，模型在无人机视角（SODa数据集的7%）下的泛化性值得进一步验证。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问