分享自:

比较YOLO模型在自动驾驶汽车目标检测中的性能

期刊:2025 IEEE 5th International Conference on Electronic Technology, Communication and Information (ICETCI)

本文档属于类型a,即报告单一原创研究的学术论文。以下为针对该研究的详细学术报告:


自动驾驶目标检测中的YOLO模型对比研究
作者及机构
本研究由Yichen Jin(Jinan University – University of Birmingham Joint Institute at Jinan University)完成,发表于2025年IEEE第5届电子技术、通信与信息国际会议(ICETCI),会议时间为2025年5月23-25日,地点为中国长春。


学术背景

研究领域与动机
研究聚焦于计算机视觉中的目标检测领域,具体应用于自动驾驶环境感知。据美国国家公路交通安全管理局(NHTSA)统计,94%的交通事故由人为失误导致,而自动驾驶系统通过高精度目标检测可显著降低此类风险。传统方法如Viola-Jones算法和Faster R-CNN存在实时性差或硬件成本高的问题(如LiDAR设备Velodyne HDL-64E单价约8万美元),而基于深度学习的YOLO(You Only Look Once)系列模型因其单阶段检测和高效性成为研究热点。

研究目标
本研究旨在对比YOLOv5、YOLOv8和YOLOv11在KITTI数据集上的性能,评估其精度、速度和实用性平衡,为自动驾驶系统优化提供参考。


研究流程与方法

1. 数据集与预处理
- 数据来源:采用KITTI数据集,包含2400张图像,涵盖9140辆汽车、896辆货车、351辆卡车等8类目标。
- 数据划分:按5:1比例分为训练集(2000张)和验证集(400张),图像统一缩放至640×640像素。
- 增强策略:YOLOv5使用Mosaic数据增强,YOLOv8引入Copy-Paste增强,YOLOv11采用自适应裁剪和混合精度训练。

2. 模型配置与训练
- 模型选择:对比YOLOv5n、YOLOv8n和YOLOv11n的轻量级版本,确保计算资源公平性。
- 训练参数:100个训练周期(epoch),批次大小(batch size)为16,优化器为随机梯度下降(SGD)。
- 损失函数
- YOLOv5:CIoU损失(定位) + BCE损失(分类)。
- YOLOv8:CIoU损失 + DFL(Distribution Focal Loss,分布焦点损失)。
- YOLOv11:CIoU损失 + 动态损失缩放(Dynamic Loss Scaling)。

3. 性能评估指标
- 精度指标:平均精度均值(mAP@0.5:0.95)、精确率(Precision)、召回率(Recall)。
- 效率指标:训练时间、验证损失(val_loss)。


主要结果与分析

1. 模型性能对比
- 精度:YOLOv8的mAP@0.5:0.95最高(0.549),优于YOLOv11(0.546)和YOLOv5(0.492)。其动态标签分配(Dynamic Label Allocation)和Varifocal Loss优化了小目标检测。
- 收敛速度:YOLOv5训练损失下降最快(box_loss从0.099降至0.031),但易过拟合;YOLOv8和YOLOv11表现更稳定(图2)。
- 资源消耗:YOLOv11因深度网络和动态调整机制,训练时间最长(1732.98秒),需更高算力。

2. 关键改进技术分析
- YOLOv8:取消Focus层改用6×6卷积,提升硬件兼容性;C2F模块增强特征融合能力。
- YOLOv11:引入跨层注意力机制(Cross-layer Attention)和动态R-CNN思想,优化边界框回归。

3. 可视化结果
图3显示,YOLOv8在复杂场景(如遮挡和小目标)中检测框更准确,验证了其多尺度适应性。


研究结论与价值

科学价值
1. 技术验证:YOLOv8的动态标签分配和任务对齐设计(Task-Aligned Assigner)为实时目标检测提供了新范式。
2. 方法创新:YOLOv11的动态调整机制首次应用于轻量级模型,为边缘设备部署提供理论支持。

应用价值
研究指出YOLOv5适合快速部署的工业场景,YOLOv8适用于高精度需求的自动驾驶系统,而YOLOv11需进一步优化计算效率。


研究亮点与不足

亮点
1. 全面性:首次系统对比YOLOv5/v8/v11在自动驾驶场景的性能差异。
2. 实用性:提出模型选择指南,平衡精度、速度与资源消耗。

不足
1. 数据局限性:未涵盖极端天气(如暴雨)场景。
2. 硬件依赖:未测试模型在边缘设备(如车载芯片)的实际性能。


未来方向

作者建议:
1. 融合多传感器数据(如LiDAR和雷达)提升鲁棒性。
2. 优化YOLOv11的动态算法,通过参数剪枝(Pruning)降低计算成本。
3. 扩展数据集至Nuscenes和Waymo,验证模型泛化性。


(报告总字数:约1500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com