作者及机构
本研究的通讯作者为Zhongzhi Zheng与Yuan Jia*(标注*为通讯作者),所属机构为中国四川省绵阳市的西南科技大学(Southwest University of Science and Technology)。该论文发表于2024年第17届国际图像与信号处理、生物医学工程与信息学大会(CISP-BMEI),会议论文集由IEEE出版,DOI编号为10.1109/cisp-bmei64163.2024.10906296。
研究领域与动机
本研究属于计算机视觉中的目标检测领域,专注于无人机航拍图像的小目标检测。无人机在环境监测、农业、交通管理等领域的广泛应用,催生了对其拍摄图像中微小目标(如行人、车辆)的高精度检测需求。然而,航拍图像存在目标尺寸小、特征模糊、背景复杂、尺度变化大等挑战,传统基于CNN的算法(如YOLO系列)因感受野有限和NMS(非极大值抑制)过程的缺陷,难以满足实时性与精度要求。
技术背景
- RT-DETR:百度团队2023年提出的实时检测Transformer模型,通过Transformer架构捕捉全局上下文,避免了NMS的负面影响。
- 现有问题:RT-DETR在计算成本和小目标特征提取效率上仍有优化空间。
研究目标
提出改进的RT-DETR算法,通过轻量化模块设计、多尺度特征融合和损失函数优化,提升小目标检测精度并降低计算开销。
改进点:
- 基础结构:基于Fasternet Block,引入卷积门控线性单元(Convolutional Gated Linear Unit, CGLU)替代传统卷积。
- CGLU原理:在GLU(Gated Linear Unit)的门控分支中嵌入3×3深度可分离卷积(Depthwise Conv),形成通道注意力机制,增强局部特征捕获能力(图2)。
- 计算优化:通过部分卷积(PConv)仅处理输入特征图的部分通道,减少冗余计算(FLOPs降低至标准卷积的1/4)。
验证实验:
- 在RT-DETR基线模型中替换BasicBlock为CF-Block,参数量减少21.9%(19.88M→15.52M),检测精度(mAP@0.5)提升0.1%。
设计动机:
浅层特征包含小目标的细节信息,但传统下采样会导致信息丢失。
关键技术:
- SPD-Conv模块:将空间到深度(Space-to-Depth)层与无步长卷积结合,避免下采样中的细粒度信息损失(图4)。
- Omni-Kernel模块(OKM):
- 多分支设计:全局分支(双域通道注意力DCAM+频率空间注意力FSAM)、大尺度分支(k×k深度卷积)、局部分支(1×1卷积),全面融合多尺度特征。
- CSPNet优化:沿空间维度分割特征图,部分输入OKM处理,减少计算量。
实验效果:
- 结合SOEP的模型(RT-DETR b)mAP@0.5提升至50.2%,参数量增至20.50M,但通过CF-Block与SOEP联合优化(RT-DETR d),参数量降至16.14M,精度仍优于基线。
改进原理:
- Shape-IoU:引入目标形状权重(公式6-7),通过长宽比自适应调整损失计算,增强尺度不变性。
- Wise-IoU融合:动态梯度增益策略(公式14)抑制低质量锚框的负面影响,聚焦中等质量样本。
实验结果:
- 单独使用W-ShapeIoU(RT-DETR c)使mAP@0.5提升0.2%;与CF-Block、SOEP联合优化后,最终模型mAP@0.5达50.6%(较基线提升2.6%)。
如图8所示,改进模型修正了基线RT-DETR的误检(如将路灯识别为行人)和漏检(如双层巴士),证明了多尺度特征融合的有效性。
科学价值:
1. 方法创新:CF-Block与CGLU的结合为轻量化特征提取提供了新思路;SOEP通过浅层特征融合解决了小目标信息丢失问题。
2. 理论贡献:W-ShapeIoU首次将形状敏感性与动态梯度分配结合,提升了边界框回归的鲁棒性。
应用价值:
该算法可部署于无人机实时监测系统,适用于交通流量统计、灾害搜救等场景。未来可通过量化与剪枝进一步压缩模型,适配边缘设备。
局限性与展望:当前模型对极端光照条件的适应性不足,未来可通过数据增强(如随机裁剪、旋转)进一步优化。