本研究由来自孟加拉国Rajshahi University of Engineering & Technology电气与计算机工程系的Zakia Afrin、Fariya Tabassum、Hafsa Binte Kibria、Md. Rafi Imam和Md. Rokibul Hasan五位研究人员共同完成。研究成果发表于2023年12月13-15日在孟加拉国Cox’s Bazar举行的”2023 26th International Conference on Computer and Information Technology (ICCIT)“会议论文集。
在自动驾驶汽车快速发展的背景下,目标检测(object detection)技术成为确保车辆安全导航的关键环节。自动驾驶汽车需要实时准确地识别道路上的各种物体,包括其他车辆、行人、骑行者、交通信号灯等。然而,现有方法在复杂场景和恶劣天气条件下仍面临准确性和实时性的双重挑战。
本研究旨在探索YOLOv8(You Only Look Once version 8)模型在自动驾驶汽车目标检测中的应用性能。研究团队特别关注如何提高模型在真实道路场景中的检测精度和效率,同时保持实时处理能力。通过与前一版本YOLOv4的对比,验证YOLOv8模型的性能提升。
研究采用了增强版的Udacity自驾驶汽车数据集,包含11类与自动驾驶相关的物体(如行人、汽车、卡车、自行车骑行者、交通信号灯等),共计97,942条精心标注的样本。图像分辨率统一为512×512像素,标注信息以CSV格式提供。
数据预处理采用以下关键步骤: - 格式转换:将CSV格式的标注转换为YOLO格式的TXT文件 - 数据组织:为每个类别创建独立文件夹,确保类别平衡 - 数据集划分:按70%训练集、15%验证集和15%测试集的比例分割 - 图像与标注分离:建立独立的images和labels文件夹结构
YOLOv8模型采用CSPDarknet53作为骨干网络(backbone),通过卷积层提取输入图像的特征图。模型引入了跨阶段部分连接(Cross-Stage Partial connection, CSP)来高效整合不同网络阶段的特征。检测头(YOLO head)包含多个检测层,每个层负责预测不同尺度的物体。模型使用锚框(anchor boxes)进行边界框预测、物体性评分和类别概率计算,并采用特征金字塔网络(Feature Pyramid Network, FPN)原理处理不同尺寸的物体。
研究比较了两种YOLOv8变体: - YOLOv8s.pt:轻量级版本,参数11,129,841个,适合实时应用 - YOLOv8x.pt:扩展版本,参数68,134,161个,精度更高但计算量更大
研究使用Google Colab平台提供的计算资源,包括: - GPU:NVIDIA Tesla T4(16GB显存) - 软件环境:配备TensorFlow和PyTorch等必要Python库
训练过程持续50个epoch,采用以下关键参数: - 初始学习率:0.01 - 批量大小:16 - 数据增强策略:包括随机裁剪、色彩调整等 - 损失函数组合:定位损失(localization loss)、置信度损失(confidence loss)和分类损失(class loss)
采用以下主要指标评估模型性能: - 平均精度均值(mean Average Precision, mAP):主要评价指标 - 精确率(Precision) - 召回率(Recall) - F1分数(F1-score) - 推理速度(Inference speed) - 训练速度(Training speed)
YOLOv8x.pt模型取得了77.8%的mAP,显著优于YOLOv4的57.61%。具体性能指标对比如下:
| 指标 | YOLOv8x.pt | YOLOv8s.pt | YOLOv4 |
|---|---|---|---|
| mAP(%) | 77.8 | 76.5 | 57.61 |
| 精确率 | 0.874 | 0.765 | - |
| 召回率 | 0.655 | 0.609 | - |
| F1分数 | 0.778 | 0.765 | - |
| 推理速度(ms) | 16.5 | 3.0 | - |
模型在不同类别上的表现存在差异: - 高精度类别:行人(92%精度)、骑车人(83%精度) - 中等精度类别:汽车(64%精度)、卡车(69%精度) - 低精度类别:左转绿灯(较低精度)、红灯(较低精度)
训练指标显示模型稳定收敛: - 训练框损失(train/box loss)从1.5035降至1.2459 - 训练分类损失(train/cls loss)从1.1756降至0.7043 - 验证框损失(val/box loss)从1.4488降至1.2027 - 验证分类损失(val/cls loss)从0.88513降至0.59352
精度-召回(Precision-Recall)曲线显示: - 在0.5置信度阈值下,模型整体mAP达到77.8% - 在0.982置信度阈值下,所有类别均达到1.00的完美精度
本研究证实YOLOv8模型在自动驾驶目标检测任务中具有显著优势。YOLOv8x.pt模型77.8%的mAP性能较YOLOv4提高了20.19个百分点,体现了新一代目标检测算法的进步。同时,YOLOv8s.pt模型在保持较高精度(76.5% mAP)的同时实现了3ms的快速推理,适合实时应用场景。
研究的科学价值主要体现在: 1. 系统评估了YOLOv8在自动驾驶场景下的性能表现 2. 提出了针对自动驾驶数据集的有效预处理方法 3. 验证了不同YOLOv8变体在精度与速度上的权衡关系
实际应用价值包括: 1. 为自动驾驶系统开发提供了可靠的目标检测解决方案 2. 通过优化模型选择平衡计算资源与检测精度需求 3. 展示了使用云端计算资源(Google Colab)进行高效模型训练的可行性
研究还探讨了模型在复杂场景下的局限性,特别是对某些交通信号灯类别的检测精度不足问题,这为未来研究指明了改进方向。团队公开了详细的数据预处理代码和方法,有助于推动相关领域的可重复研究。
总体而言,这项研究不仅验证了YOLOv8在自动驾驶目标检测中的卓越性能,也为实际应用中的模型选择和优化提供了重要参考,对推动自动驾驶技术发展具有积极意义。