分享自:

改进的RT-DETR算法用于航拍图像中的小目标检测

期刊:2024 17th international congress on image and signal processing, biomedical engineering and informatics (cisp-bmei)

基于RT-DETR的无人机航拍图像小目标检测算法改进研究

作者及机构
本研究的通讯作者为Zhongzhi Zheng与Yuan Jia*(标注*为通讯作者),所属机构为中国四川省绵阳市的西南科技大学(Southwest University of Science and Technology)。该论文发表于2024年第17届国际图像与信号处理、生物医学工程与信息学大会(CISP-BMEI),会议论文集由IEEE出版,DOI编号为10.1109/cisp-bmei64163.2024.10906296。


学术背景

研究领域与动机
本研究属于计算机视觉中的目标检测领域,专注于无人机航拍图像的小目标检测。无人机在环境监测、农业、交通管理等领域的广泛应用,催生了对其拍摄图像中微小目标(如行人、车辆)的高精度检测需求。然而,航拍图像存在目标尺寸小、特征模糊、背景复杂、尺度变化大等挑战,传统基于CNN的算法(如YOLO系列)因感受野有限和NMS(非极大值抑制)过程的缺陷,难以满足实时性与精度要求。

技术背景
- RT-DETR:百度团队2023年提出的实时检测Transformer模型,通过Transformer架构捕捉全局上下文,避免了NMS的负面影响。
- 现有问题:RT-DETR在计算成本和小目标特征提取效率上仍有优化空间。

研究目标
提出改进的RT-DETR算法,通过轻量化模块设计、多尺度特征融合和损失函数优化,提升小目标检测精度并降低计算开销。


研究方法与流程

1. 轻量化多尺度特征提取模块(CF-Block)

改进点
- 基础结构:基于Fasternet Block,引入卷积门控线性单元(Convolutional Gated Linear Unit, CGLU)替代传统卷积。
- CGLU原理:在GLU(Gated Linear Unit)的门控分支中嵌入3×3深度可分离卷积(Depthwise Conv),形成通道注意力机制,增强局部特征捕获能力(图2)。
- 计算优化:通过部分卷积(PConv)仅处理输入特征图的部分通道,减少冗余计算(FLOPs降低至标准卷积的1/4)。

验证实验
- 在RT-DETR基线模型中替换BasicBlock为CF-Block,参数量减少21.9%(19.88M→15.52M),检测精度(mAP@0.5)提升0.1%。

2. 轻量化特征融合机制(SOEP)

设计动机
浅层特征包含小目标的细节信息,但传统下采样会导致信息丢失。

关键技术
- SPD-Conv模块:将空间到深度(Space-to-Depth)层与无步长卷积结合,避免下采样中的细粒度信息损失(图4)。
- Omni-Kernel模块(OKM)
- 多分支设计:全局分支(双域通道注意力DCAM+频率空间注意力FSAM)、大尺度分支(k×k深度卷积)、局部分支(1×1卷积),全面融合多尺度特征。
- CSPNet优化:沿空间维度分割特征图,部分输入OKM处理,减少计算量。

实验效果
- 结合SOEP的模型(RT-DETR b)mAP@0.5提升至50.2%,参数量增至20.50M,但通过CF-Block与SOEP联合优化(RT-DETR d),参数量降至16.14M,精度仍优于基线。

3. 损失函数优化(W-ShapeIoU)

改进原理
- Shape-IoU:引入目标形状权重(公式6-7),通过长宽比自适应调整损失计算,增强尺度不变性。
- Wise-IoU融合:动态梯度增益策略(公式14)抑制低质量锚框的负面影响,聚焦中等质量样本。

实验结果
- 单独使用W-ShapeIoU(RT-DETR c)使mAP@0.5提升0.2%;与CF-Block、SOEP联合优化后,最终模型mAP@0.5达50.6%(较基线提升2.6%)。


主要结果与贡献

性能对比

  • 参数量与计算效率:最终模型参数量16.14M(减少18.8%),FLOPs 56.4G(减少1%)。
  • 检测精度:在VisDrone2019数据集上,mAP@0.5:0.95达30.9%(较基线提升1.9%),显著优于YOLOv5m(25.9%)、YOLOv8m(26.2%)等主流算法。

可视化验证

如图8所示,改进模型修正了基线RT-DETR的误检(如将路灯识别为行人)和漏检(如双层巴士),证明了多尺度特征融合的有效性。


结论与价值

科学价值
1. 方法创新:CF-Block与CGLU的结合为轻量化特征提取提供了新思路;SOEP通过浅层特征融合解决了小目标信息丢失问题。
2. 理论贡献:W-ShapeIoU首次将形状敏感性与动态梯度分配结合,提升了边界框回归的鲁棒性。

应用价值
该算法可部署于无人机实时监测系统,适用于交通流量统计、灾害搜救等场景。未来可通过量化与剪枝进一步压缩模型,适配边缘设备。


研究亮点

  1. 轻量化设计:CF-Block与SOEP在降低参数量的同时提升精度,突破了传统Transformer的高计算瓶颈。
  2. 多尺度融合创新:OKM模块通过频域与空域注意力结合,实现了全局与局部特征的高效协同。
  3. 动态损失函数:W-ShapeIoU为小目标检测中的样本不平衡问题提供了通用解决方案。

局限性与展望:当前模型对极端光照条件的适应性不足,未来可通过数据增强(如随机裁剪、旋转)进一步优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com