分享自:

基于YOLOv8和SAHI框架的咖啡豆缺陷实时检测研究

期刊:2024 Beyond Technology Summit on Informatics International Conference (BTS-i2C)

基于YOLOv8结合SAHI框架的咖啡豆缺陷实时检测研究学术报告

作者及发表信息

本研究由Nelly Oktavia Adiwijaya(印度尼西亚Institut Teknologi Sepuluh Nopember与Universitas Jember联合培养)、Riyanarto Sarno(通讯作者,Institut Teknologi Sepuluh Nopember)及Dedy Rahman Wijaya(Telkom University)共同完成,发表于2024年Beyond Technology Summit on Informatics International Conference (BTS-I2C)会议论文集,由IEEE出版。

学术背景

研究领域:本研究属于农业食品质量检测与计算机视觉交叉领域,核心为解决罗布斯塔咖啡豆(Robusta coffee beans)缺陷的自动化实时检测问题。

研究动机:传统咖啡豆质量评估依赖人工(如Q Grader专家),存在耗时、主观性强、一致性差等问题(SCAA标准要求人工检测300克样本中的缺陷)。而光谱技术(如NIR、FTIR)及传统机器学习方法(如CNN)虽具备高精度,但受限于设备成本、实时性不足或对小尺寸重叠物体检测效果不佳的缺陷。

技术背景
- YOLOv8:当前最新实时目标检测算法,基于CSPDarknet53主干网络,具有多尺度预测和高效锚框系统,适合密集小物体检测。
- SAHI框架(Slicing Aided Hyper Inference,切片辅助超推理):通过图像切片放大局部特征,结合非极大值抑制(NMS)提升小目标检测精度,已成功应用于苹果花簇、番茄等农业场景。

研究目标:开发一种结合YOLOv8与SAHI的实时检测系统,精准识别罗布斯塔咖啡豆的两种主要缺陷——全黑豆(Full Black)部分黑豆(Partial Black),并验证其在真实密集堆叠场景下的性能。

研究流程与方法

1. 数据采集与预处理

研究对象:从印尼东爪哇省Sumberwadung咖啡种植园采集300克罗布斯塔咖啡豆样本,共979张图像,包含:
- 全黑豆(400张)
- 部分黑豆(400张)
- 混合缺陷(179张)

设备与参数:使用Fujifilm X-A10相机(4896×3264像素),白色背景拍摄,原始图像经裁剪调整为3176×2402像素以减少边缘噪声。

标注工具:采用Roboflow进行边界框标注,生成YOLO格式的.txt标签文件,确保模型训练可读性。

2. 数据集划分与增强

  • 两种划分方案
    • 70%训练集、20%验证集、10%测试集(70:20:10)
    • 80%训练集、10%验证集、10%测试集(80:10:10)
  • SAHI数据增强:通过切片辅助微调(Slicing-Aided Fine-Tuning, SF)将高分辨率图像分割为重叠局部区块,放大小目标像素占比,缓解传统预训练数据集(如COCO)对小目标的检测偏差。

3. 模型构建与训练

核心架构
- YOLOv8:105层网络,包含Backbone(FPN特征金字塔)、Neck(跨层连接CLC)和Head(边界框预测与分类)三部分。
- SAHI集成
1. 切片推理:滑动窗口将输入图像分割为M×N重叠区块,独立检测后通过NMS合并结果(匹配阈值t_m=0.3,概率阈值t_d=0.4)。
2. 流程优化:先对切片区块进行超推理(Hyper Inference),再与原始图像的全推理(Full Inference, FI)结果融合,避免漏检大目标。

训练参数:10个训练周期(Epochs),批量大小(Batch Size)为16,损失函数监测边界框误差(box_loss)和分类误差(cls_loss)。

4. 模型评估指标

  • 精确率(Precision, P):正确检测的缺陷占所有检测结果的比例。
  • 召回率(Recall, R):实际缺陷中被正确识别的比例。
  • 平均精度均值(mAP):综合考虑不同IoU阈值下的检测稳定性。

主要结果

性能对比(YOLOv8 vs. YOLOv8+SAHI)

| 数据划分 | 模型 | 全类别P | 全类别R | mAP@0.5 |
|———-|—————|———|———|———|
| 70:20:10 | YOLOv8 | 0.967 | 0.952 | 0.956 |
| | YOLOv8+SAHI | 0.984 | 0.970 | 0.994 |
| 80:10:10 | YOLOv8 | 0.969 | 0.983 | 0.993 |
| | YOLOv8+SAHI | 0.969 | 0.983 | 0.993 |

关键发现
1. SAHI对小目标的提升:在70:20:10划分中,SAHI使全黑豆的召回率从0.998提升至0.991,部分黑豆的精确率从0.987提升至0.961,表明SAHI有效减少密集小目标的误检。
2. 数据量影响:80:10:10划分下模型整体性能更优(mAP 0.993),推测因训练数据量增加提升了泛化能力。
3. 损失函数分析:SAHI使训练集box_loss下降0.5(2.1→1.6),cls_loss下降2.0(3.5→1.5),验证其稳定收敛性(图5-6)。

结论与价值

科学意义
- 方法创新:首次将SAHI框架引入咖啡豆缺陷检测,解决传统YOLO模型对密集小目标的识别瓶颈。
- 技术验证:证实YOLOv8+SAHI在农业食品检测中的高鲁棒性(mAP>0.99),为类似场景(如谷物、坚果质检)提供参考。

应用价值
- 实时性:模型支持300克样本的快速分析,可集成至生产线实现自动化分级,替代人工质检。
- 成本效益:仅需普通相机与计算设备,无需昂贵光谱仪,适合发展中国家咖啡产区推广。

研究亮点

  1. 高精度实时检测:在真实堆叠场景下实现mAP>0.99,超越现有光谱技术(如HSI需复杂设备)和轻量级CNN模型(如文献[19]的mAP 0.94)。
  2. 跨领域技术融合:将SAHI原本用于无人机监测的技术(文献[26])迁移至农业质检,拓展其应用边界。
  3. 公开数据贡献:提供979张标注咖啡豆缺陷图像(全黑/部分黑),填补该领域公开数据集的空白。

局限与展望

  • 缺陷类型覆盖:当前仅针对全黑与部分黑缺陷,未来可扩展至虫蛀、发芽等复杂缺陷。
  • 硬件适配:需进一步优化模型在边缘设备(如树莓派)的部署效率,适配田间实时检测需求。

该研究为咖啡产业链的智能化质检提供了可落地的技术方案,兼具学术创新性与工业应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com