基于YOLOv8和SAHI框架的咖啡豆缺陷实时检测研究

分享自：
基于YOLOv8和SAHI框架的咖啡豆缺陷实时检测研究

期刊:2024 Beyond Technology Summit on Informatics International Conference (BTS-i2C)
基于YOLOv8结合SAHI框架的咖啡豆缺陷实时检测研究学术报告作者及发表信息本研究由Nelly Oktavia Adiwijaya（印度尼西亚Institut Teknologi Sepuluh Nopember与Universitas Jember联合培养）、Riyanarto Sarno（通讯作者，Institut Teknologi Sepuluh Nopember）及Dedy Rahman Wijaya（Telkom University）共同完成，发表于2024年Beyond Technology Summit on Informatics International Conference (BTS-I2C)会议论文集，由IEEE出版。
学术背景研究领域：本研究属于农业食品质量检测与计算机视觉交叉领域，核心为解决罗布斯塔咖啡豆（Robusta coffee beans）缺陷的自动化实时检测问题。
研究动机：传统咖啡豆质量评估依赖人工（如Q Grader专家），存在耗时、主观性强、一致性差等问题（SCAA标准要求人工检测300克样本中的缺陷）。而光谱技术（如NIR、FTIR）及传统机器学习方法（如CNN）虽具备高精度，但受限于设备成本、实时性不足或对小尺寸重叠物体检测效果不佳的缺陷。
技术背景：
 - YOLOv8：当前最新实时目标检测算法，基于CSPDarknet53主干网络，具有多尺度预测和高效锚框系统，适合密集小物体检测。
 - SAHI框架（Slicing Aided Hyper Inference，切片辅助超推理）：通过图像切片放大局部特征，结合非极大值抑制（NMS）提升小目标检测精度，已成功应用于苹果花簇、番茄等农业场景。
研究目标：开发一种结合YOLOv8与SAHI的实时检测系统，精准识别罗布斯塔咖啡豆的两种主要缺陷——全黑豆（Full Black）和部分黑豆（Partial Black），并验证其在真实密集堆叠场景下的性能。
研究流程与方法1. 数据采集与预处理研究对象：从印尼东爪哇省Sumberwadung咖啡种植园采集300克罗布斯塔咖啡豆样本，共979张图像，包含：
 - 全黑豆（400张）
 - 部分黑豆（400张）
 - 混合缺陷（179张）
设备与参数：使用Fujifilm X-A10相机（4896×3264像素），白色背景拍摄，原始图像经裁剪调整为3176×2402像素以减少边缘噪声。
标注工具：采用Roboflow进行边界框标注，生成YOLO格式的.txt标签文件，确保模型训练可读性。
2. 数据集划分与增强两种划分方案：
 70%训练集、20%验证集、10%测试集（70:20:10）
 
80%训练集、10%验证集、10%测试集（80:10:10）
 
SAHI数据增强：通过切片辅助微调（Slicing-Aided Fine-Tuning, SF）将高分辨率图像分割为重叠局部区块，放大小目标像素占比，缓解传统预训练数据集（如COCO）对小目标的检测偏差。
 
3. 模型构建与训练核心架构：
 - YOLOv8：105层网络，包含Backbone（FPN特征金字塔）、Neck（跨层连接CLC）和Head（边界框预测与分类）三部分。
 - SAHI集成：
 1. 切片推理：滑动窗口将输入图像分割为M×N重叠区块，独立检测后通过NMS合并结果（匹配阈值t_m=0.3，概率阈值t_d=0.4）。
 2. 流程优化：先对切片区块进行超推理（Hyper Inference），再与原始图像的全推理（Full Inference, FI）结果融合，避免漏检大目标。
训练参数：10个训练周期（Epochs），批量大小（Batch Size）为16，损失函数监测边界框误差（box_loss）和分类误差（cls_loss）。
4. 模型评估指标精确率（Precision, P）：正确检测的缺陷占所有检测结果的比例。
 
召回率（Recall, R）：实际缺陷中被正确识别的比例。
 
平均精度均值（mAP）：综合考虑不同IoU阈值下的检测稳定性。
 
主要结果性能对比（YOLOv8 vs. YOLOv8+SAHI）| 数据划分 | 模型 | 全类别P | 全类别R | mAP@0.5 |
 |———-|—————|———|———|———|
 | 70:20:10 | YOLOv8 | 0.967 | 0.952 | 0.956 |
 | | YOLOv8+SAHI | 0.984 | 0.970 | 0.994 |
 | 80:10:10 | YOLOv8 | 0.969 | 0.983 | 0.993 |
 | | YOLOv8+SAHI | 0.969 | 0.983 | 0.993 |
关键发现：
 1. SAHI对小目标的提升：在70:20:10划分中，SAHI使全黑豆的召回率从0.998提升至0.991，部分黑豆的精确率从0.987提升至0.961，表明SAHI有效减少密集小目标的误检。
 2. 数据量影响：80:10:10划分下模型整体性能更优（mAP 0.993），推测因训练数据量增加提升了泛化能力。
 3. 损失函数分析：SAHI使训练集box_loss下降0.5（2.1→1.6），cls_loss下降2.0（3.5→1.5），验证其稳定收敛性（图5-6）。
结论与价值科学意义：
 - 方法创新：首次将SAHI框架引入咖啡豆缺陷检测，解决传统YOLO模型对密集小目标的识别瓶颈。
 - 技术验证：证实YOLOv8+SAHI在农业食品检测中的高鲁棒性（mAP>0.99），为类似场景（如谷物、坚果质检）提供参考。
应用价值：
 - 实时性：模型支持300克样本的快速分析，可集成至生产线实现自动化分级，替代人工质检。
 - 成本效益：仅需普通相机与计算设备，无需昂贵光谱仪，适合发展中国家咖啡产区推广。
研究亮点高精度实时检测：在真实堆叠场景下实现mAP>0.99，超越现有光谱技术（如HSI需复杂设备）和轻量级CNN模型（如文献[19]的mAP 0.94）。
 
跨领域技术融合：将SAHI原本用于无人机监测的技术（文献[26]）迁移至农业质检，拓展其应用边界。
 
公开数据贡献：提供979张标注咖啡豆缺陷图像（全黑/部分黑），填补该领域公开数据集的空白。
 
局限与展望缺陷类型覆盖：当前仅针对全黑与部分黑缺陷，未来可扩展至虫蛀、发芽等复杂缺陷。
 
硬件适配：需进一步优化模型在边缘设备（如树莓派）的部署效率，适配田间实时检测需求。
 
该研究为咖啡产业链的智能化质检提供了可落地的技术方案，兼具学术创新性与工业应用潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问