分享自:

基于改进YOLOv8的低能见度条件下的行人和车辆检测

期刊:2023 2nd International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP)DOI:10.1109/AIIIP61647.2023.00063

本研究由上海电机学院(Shanghai Dianji University)的Wu Xiuchun(第一作者,通讯邮箱2556205820@qq.com)和Gao Zhizheng(合作作者)共同完成,发表于2023年第二届人工智能与智能信息处理国际会议(AIIIP 2023),会议论文集由IEEE出版(DOI: 10.1109/AIIIP61647.2023.00063)。论文标题为《基于改进YOLOv8的低能见度条件下行人车辆检测》,聚焦计算机视觉与智能驾驶领域,旨在解决低能见度天气(如雾天)下交通目标检测精度下降的行业难题。

学术背景

自动驾驶技术发展面临的核心挑战之一是如何在恶劣天气条件下维持可靠的感知能力。传统目标检测算法(如帧差法、背景差分法、光流法)对场景变化敏感且难以处理遮挡问题,而基于深度学习的YOLO系列算法虽具有实时性优势,但在多尺度目标检测和复杂环境适应性上仍有局限。作者团队通过分析发现,现有算法在低能见度场景中易出现误检(如将建筑物误判为车辆)和漏检,其主要原因是常规卷积网络难以捕捉目标的空间形变特征,且缺乏对关键区域的注意力聚焦机制。为此,研究提出融合可变形卷积(DCNv2)与双向路由注意力(Biformer)的YOLOv8改进模型,目标是将平均精度(mAP)提升2%以上,同时满足自动驾驶系统的实时性需求。

研究方法与流程

1. 算法改进设计

研究以YOLOv8s为基线模型,实施了两项核心改进:
- 可变形卷积模块替换:将原C2F模块中的标准卷积替换为DCNv2(Deformable Convolution v2)。该模块通过可学习的偏移量调整采样点位置,并引入幅度调制机制,使网络能自适应目标形状变化。例如,对雾天模糊的车辆轮廓,DCNv2可动态调整感受野范围,显著提升小目标(如远处行人)的特征提取能力。
- 注意力机制融合:在骨干网络末端嵌入Biformer注意力模块。其创新性体现在采用双层路由策略:首先通过粗粒度区域筛选过滤90%无关键值对,随后在保留的10%区域内进行细粒度特征交互。实验显示,该机制使模型在雾天图像中能准确聚焦于车灯、反光标识等关键语义区域。

2. 数据集构建

研究团队从滴滴出行提供的D2-City数据集中筛选出4300张雾天交通场景图像,包含行人(1740例)、自行车(1413例)、汽车(1125例)、公交车(1133例)和摩托车(989例)五类目标。数据集按8:2划分训练集与验证集,并确保两者无重叠。图2的统计分析表明,目标在图像中呈现非均匀分布(多集中于画面上部),且目标尺寸差异显著(宽度占比0.05-0.8不等),这对算法的多尺度检测能力提出挑战。

3. 实验验证

硬件平台采用Intel i7-1165G7处理器与NVIDIA RTX3070显卡,软件基于PyTorch框架。对比实验设置如下:
- 评价指标:除常规精确率(P)、召回率(R)和mAP外,引入F1分数综合评估模型性能。
- 消融实验:逐步验证DCNv2与Biformer的贡献。结果显示,单独使用DCNv2可使mAP提升1.8%,而组合使用两项改进时mAP提升达3.41%。
- 可视化分析:图3展示三组典型场景的检测对比。在公交车误检案例中,改进模型通过形变卷积准确区分车辆与相似背景;在建筑窗户误判案例中,注意力机制有效抑制了非交通目标的干扰。

核心结果

改进后的YOLOv8在测试集上达到P=93.28%、R=92.64%、mAP=95.56%,较原模型分别提升2.31%、2.29%和3.41%。具体表现为:
1. 小目标检测优化:摩托车(最小目标类别)的AP从88.7%提升至92.1%,证明DCNv2对形变目标的捕捉能力;
2. 误检率降低:通过Biformer的路径规划,背景误判减少37%(如建筑窗户误检次数从15次/千张降至9.5次/千张);
3. 实时性保持:推理速度达45 FPS,满足车载系统实时性要求(>30 FPS)。

结论与价值

本研究通过融合可变形卷积与动态稀疏注意力机制,显著提升了低能见度条件下的目标检测鲁棒性。其科学价值体现在:
1. 方法论创新:首次将Biformer注意力引入YOLO系列,为轻量化注意力设计提供新思路;
2. 工程应用价值:模型在雾天场景的稳定表现,为L3级自动驾驶系统提供了可靠的感知方案;
3. 开源贡献:构建的雾天交通数据集公开可用,填补了该领域标注数据的空白。

研究亮点

  • 算法创新性:DCNv2与Biformer的协同设计,解决了传统卷积在形变目标检测中的固有局限;
  • 场景适配性:针对中国城市特有的雾霾天气进行优化,检测效果优于通用模型(如Faster R-CNN在相同数据集上mAP仅为89.2%);
  • 可扩展性:提出的改进模块可迁移至其他YOLO系列算法,为恶劣天气下的无人机巡检、安防监控等应用提供技术参考。

未来研究方向包括开发轻量化版本以提升帧率,以及探索多模态数据(如红外图像)的融合检测方案。该成果为智能驾驶在复杂环境下的商业化落地提供了重要技术支撑。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com