本文档属于类型a,即报告单一原创研究的学术论文。以下为针对该研究的详细学术报告:
自动驾驶目标检测中的YOLO模型对比研究
作者及机构
本研究由Yichen Jin(Jinan University – University of Birmingham Joint Institute at Jinan University)完成,发表于2025年IEEE第5届电子技术、通信与信息国际会议(ICETCI),会议时间为2025年5月23-25日,地点为中国长春。
研究领域与动机
研究聚焦于计算机视觉中的目标检测领域,具体应用于自动驾驶环境感知。据美国国家公路交通安全管理局(NHTSA)统计,94%的交通事故由人为失误导致,而自动驾驶系统通过高精度目标检测可显著降低此类风险。传统方法如Viola-Jones算法和Faster R-CNN存在实时性差或硬件成本高的问题(如LiDAR设备Velodyne HDL-64E单价约8万美元),而基于深度学习的YOLO(You Only Look Once)系列模型因其单阶段检测和高效性成为研究热点。
研究目标
本研究旨在对比YOLOv5、YOLOv8和YOLOv11在KITTI数据集上的性能,评估其精度、速度和实用性平衡,为自动驾驶系统优化提供参考。
1. 数据集与预处理
- 数据来源:采用KITTI数据集,包含2400张图像,涵盖9140辆汽车、896辆货车、351辆卡车等8类目标。
- 数据划分:按5:1比例分为训练集(2000张)和验证集(400张),图像统一缩放至640×640像素。
- 增强策略:YOLOv5使用Mosaic数据增强,YOLOv8引入Copy-Paste增强,YOLOv11采用自适应裁剪和混合精度训练。
2. 模型配置与训练
- 模型选择:对比YOLOv5n、YOLOv8n和YOLOv11n的轻量级版本,确保计算资源公平性。
- 训练参数:100个训练周期(epoch),批次大小(batch size)为16,优化器为随机梯度下降(SGD)。
- 损失函数:
- YOLOv5:CIoU损失(定位) + BCE损失(分类)。
- YOLOv8:CIoU损失 + DFL(Distribution Focal Loss,分布焦点损失)。
- YOLOv11:CIoU损失 + 动态损失缩放(Dynamic Loss Scaling)。
3. 性能评估指标
- 精度指标:平均精度均值(mAP@0.5:0.95)、精确率(Precision)、召回率(Recall)。
- 效率指标:训练时间、验证损失(val_loss)。
1. 模型性能对比
- 精度:YOLOv8的mAP@0.5:0.95最高(0.549),优于YOLOv11(0.546)和YOLOv5(0.492)。其动态标签分配(Dynamic Label Allocation)和Varifocal Loss优化了小目标检测。
- 收敛速度:YOLOv5训练损失下降最快(box_loss从0.099降至0.031),但易过拟合;YOLOv8和YOLOv11表现更稳定(图2)。
- 资源消耗:YOLOv11因深度网络和动态调整机制,训练时间最长(1732.98秒),需更高算力。
2. 关键改进技术分析
- YOLOv8:取消Focus层改用6×6卷积,提升硬件兼容性;C2F模块增强特征融合能力。
- YOLOv11:引入跨层注意力机制(Cross-layer Attention)和动态R-CNN思想,优化边界框回归。
3. 可视化结果
图3显示,YOLOv8在复杂场景(如遮挡和小目标)中检测框更准确,验证了其多尺度适应性。
科学价值
1. 技术验证:YOLOv8的动态标签分配和任务对齐设计(Task-Aligned Assigner)为实时目标检测提供了新范式。
2. 方法创新:YOLOv11的动态调整机制首次应用于轻量级模型,为边缘设备部署提供理论支持。
应用价值
研究指出YOLOv5适合快速部署的工业场景,YOLOv8适用于高精度需求的自动驾驶系统,而YOLOv11需进一步优化计算效率。
亮点
1. 全面性:首次系统对比YOLOv5/v8/v11在自动驾驶场景的性能差异。
2. 实用性:提出模型选择指南,平衡精度、速度与资源消耗。
不足
1. 数据局限性:未涵盖极端天气(如暴雨)场景。
2. 硬件依赖:未测试模型在边缘设备(如车载芯片)的实际性能。
作者建议:
1. 融合多传感器数据(如LiDAR和雷达)提升鲁棒性。
2. 优化YOLOv11的动态算法,通过参数剪枝(Pruning)降低计算成本。
3. 扩展数据集至Nuscenes和Waymo,验证模型泛化性。
(报告总字数:约1500字)