本研究由来自南京邮电大学教育科学与技术学院的Hao Zhang、Chuanyan Hao、Wanru Song、Bo Jiang团队与珠海复旦创新研究院物联网与智慧城市创新平台的Baozhu Li合作完成,成果发表于遥感领域期刊《Remote Sensing》2023年第15卷第1249号,论文标题为《Adaptive Slicing-Aided Hyper Inference for Small Object Detection in High-Resolution Remote Sensing Images》。论文于2022年12月27日收稿,2023年2月24日正式发表,采用知识共享许可协议(CC BY 4.0)开放获取。
研究领域与问题背景
该研究属于计算机视觉与遥感图像分析的交叉领域,聚焦高分辨率遥感图像中的小目标检测难题。传统目标检测算法(如YOLOv5、Faster R-CNN)在自然场景表现优异,但在无人机航拍和遥感图像中面临三大挑战:
1. 深层特征分辨率不足导致小目标特征丢失
2. 目标具有高密度、多尺度变化和小占据面积特性
3. 交并比(Intersection over Union, IOU)指标在目标重叠、近距离排列及航拍视角多样性场景失效
现有方法局限
已有切片辅助方法(如SAHI)通过固定尺寸切片增强局部特征,但会产生计算冗余:
- 固定切片尺寸导致不同分辨率图像的冗余计算率差异显著
- 边缘区域冗余计算率超过重叠率
- 传统非极大值抑制(Non-Maximum Suppression, NMS)依赖单一IOU指标,在高密度目标场景性能受限
研究目标
团队提出ASHAI(Adaptive Slicing-Aided Hyper Inference)方法,旨在:
1. 通过自适应切片尺寸减少冗余计算
2. 结合改进的后处理算法提升检测精度
3. 在VisDrone和xView数据集验证性能优势
研究以TPH-YOLOv5为基线模型,其改进包括:
- 主干网络:CSPDarknet53架构融合3个Transformer编码器块
- 颈部网络:采用带CBAM(Convolutional Block Attention Module)的PANet结构
- 预测头:配置4个Transformer预测头
创新设计原理:
- 动态调整切片尺寸以控制切片数量(6或12片),而非固定尺寸切片
- 引入分辨率阈值LS(计算公式:LS = restrict_size·(4−3l)+1,其中restrict_size设为512)
- 冗余计算优化公式:
水平冗余 = 切片宽度×切片数 - 重叠宽度×(切片数-1) - 图像宽度 垂直冗余 = 切片高度×切片数 - 重叠高度×(切片数-1) - 图像高度
实施步骤:
1. 分辨率判断:当图像长边>LS时切12片,否则切6片
2. 切片尺寸计算:根据公式(2)动态确定最优切片尺寸p
3. 冗余区域优化:通过公式(5)-(8)量化计算冗余面积减少量
技术融合:
- DIoU-NMS:在IOU基础上引入中心点距离惩罚项(公式:DIoU = IOU − ρ²(x,xgt)/c²)
- Cluster-NMS:通过左乘二进制矩阵解决传统NMS的过抑制问题
优势:
- 检测速度提升20-25%
- 在高密度场景下mAP50提高0.9%
数据增强策略:
- 将原始图像与ASAHI切片图像共同组成训练集
- 避免旋转等传统增强方式以降低计算负担
训练参数:
- 批次大小32,初始学习率3×10⁻³
- 使用Adam优化器,训练120轮(含2轮预热)
| 方法 | mAP50 | 小目标mAP50_s | 推理速度(img/s) |
|———————|——-|—————|—————-|
| TPH-YOLOv5+SAHI | 42.2% | 29.8% | 3.69 |
| TPH-YOLOv5+ASAHI | 45.6% | 33.8% | 4.88 |
| 性能提升 | +3.4% | +4.0% | +32.2% |
科学价值:
1. 提出首个基于切片数量控制的自适应切片理论框架
2. 证实DIoU指标与聚类NMS结合的算法优势
3. 建立高分辨率遥感图像小目标检测的新基准
应用价值:
1. 为无人机巡检、地理测绘提供实时检测方案
2. 在交通监控场景实现每秒4.88帧的处理速度
3. 支持4K级图像处理(如xView数据集)
方法创新性:
技术指标突破:
工程适用性: