本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
一、作者及发表信息
本研究由Gan Zhang(武汉理工大学,邮箱:334672@whut.edu.cn)和Xi Zhao(武汉理工大学)合作完成,发表于2025年第11届国际计算与人工智能会议(ICCAI),会议论文DOI编号为10.1109/ICCAI66501.2025.00015。
二、学术背景
研究领域与动机
研究聚焦于计算机视觉中的小目标检测(Small Object Detection, SOD),特别针对建筑工地复杂场景下的安全监控需求。背景知识显示,传统目标检测方法(如YOLO系列)在建筑工地环境中存在明显缺陷:
1. 小目标漏检率高:工人、安全帽等目标在图像中占比小(如SODa数据集中1/3为远距离拍摄图像);
2. 复杂背景干扰:遮挡、多尺度物体共存(如脚手架、材料堆叠)导致误检;
3. 实时性要求:现有模型(如RT-DETR)在精度与速度间难以平衡。
研究目标
提出一种改进的RT-DETR(Real-Time Detection Transformer)模型,通过优化特征融合与损失函数,提升小目标检测精度,同时保持实时性,为工地安全管理提供可靠技术方案。
三、研究流程与方法
1. 模型改进设计
- 特征提取网络:采用HGNetV2作为主干网络,通过StemBlock和HGStage模块提取多尺度特征,增强局部与全局几何信息捕获能力。
- 改进的RepCA-FPN编码器:
- 替换原RT-DETR的CCFF模块,引入CSP-Fusion结构(图3),通过1×1卷积分割特征并融合多尺度信息;
- 集成CARAFE(Content-Aware Reassembly of Features)上采样技术,提升小目标细节重建精度;
- 采用重参数化技术优化计算效率,参数量仅增加3.4%(32.84M→33.96M)。
- 损失函数优化:提出InnerCIoU损失(公式6-11),通过引入辅助边界框(ratio∈[0.5,1.5])解决GIoU在完全覆盖场景下梯度失效问题(图4),加速低IoU样本回归。
2. 实验设计
- 数据集:使用公开数据集SODa(19846张图像,15类目标,286201标注实例),涵盖近距离、无人机视角等多样化场景(图5)。
- 对比模型:包括YOLOv8、RT-DETR-ResNet18、YOLOv6及原RT-DETR。
- 评估指标:mAP@0.5、FPS、参数量(Params)、计算量(GFLOPs)。
- 超参数设置:初始学习率0.0001(AdamW优化器),输入尺寸640×640,训练100 epoch,采用余弦退火学习率调度。
3. 数据分析流程
- 性能对比:通过混淆矩阵(图7)和PR曲线(图6)量化检测精度;
- 消融实验(表4):逐步验证InnerCIoU和RepCA-FPN的贡献;
- 实时性测试:在NVIDIA A100 GPU上测量FPS。
四、主要结果
- 精度提升:改进模型mAP@0.5达85.6%,较基线RT-DETR(82.9%)提升2.7%,关键类别(工人、安全帽)检测精度提高1.4%~1.5%(图8);
- 小目标检测优势:在遮挡场景(图8a)中,改进模型成功识别原模型漏检目标(如标语牌、被遮挡工人);
- 计算效率:参数量33.96M,GFLOPs 103.5,推理速度34.6 FPS,虽低于YOLOv8(83.9 FPS),但精度显著领先(表3);
- SOTA对比:优于MB方法(85.27% mAP,61.98M参数)等现有方法(表2),实现精度与复杂度的平衡。
五、结论与价值
科学价值
- 方法创新:RepCA-FPN通过多尺度特征自适应融合,解决了复杂背景下小目标特征表达不足的问题;
- 理论贡献:InnerCIoU损失函数为小目标定位提供了更稳健的梯度更新机制。
应用价值
为建筑工地安全监控提供高精度检测工具,可有效识别未佩戴安全装备的工人(据文献[5],67.95%事故与未戴头盔相关),降低事故风险。
六、研究亮点
- 多尺度特征融合优化:RepCA-FPN通过独立通道配置和CSPNet改进,显著提升小目标特征提取能力;
- 损失函数创新:InnerCIoU首次在RT-DETR中引入动态辅助框机制,解决GIoU退化问题;
- 工程实用性:在精度提升的同时,计算复杂度增幅可控(GFLOPs+10.3%),适合实际部署。
七、其他价值
研究局限性在于推理速度仍需优化,未来计划通过压缩RepCA-FPN冗余计算进一步提升实时性。此外,模型在无人机视角(SODa数据集的7%)下的泛化性值得进一步验证。