基于改进YOLOv8的柑橘果实通用轻量化识别模型

分享自：
基于改进YOLOv8的柑橘果实通用轻量化识别模型

期刊:computers and electronics in agricultureDOI:10.1016/j.compag.2026.111599
本报告所针对的文档是一篇发表在《Computers and Electronics in Agriculture》期刊（2026年，第246卷，文章ID 111599）上的原创性研究论文。该研究由来自华中农业大学的Jingao Ma、Yifan Wang、Xiaomeng Wu、Kaidong Xie、Zijian Dai、Shanjun Li和Jie Liu（通讯作者，邮箱liujie@mail.hzau.edu.cn）及其合作单位的科研团队完成。该研究旨在解决柑橘类水果（橙子、橘子和柚子）采摘机器人在复杂自然环境下，识别算法的通用性（针对多个品种）与轻量化（适配嵌入式边缘计算平台）需求，提出并验证了一种基于改进YOLOv8的轻量化柑橘果实识别模型（YOLOv8n-Light）。
一、 学术背景与研究目的
该研究属于农业工程领域，具体是农业机器人与机器视觉的交叉方向。随着全球柑橘产业的扩大和劳动力成本的上升，机械化、智能化采摘需求日益迫切。相较于摇晃、梳刷等方式，选择性采摘机器人更适合鲜食柑橘的收获，能够减少对果树和果实的机械损伤。而精准的目标识别与定位是实现机器人选择性采摘的先决条件和基础。
然而，现有研究面临两大挑战：第一，适应性不足。柑橘品种繁多（例如橙子 Citrus sinensis、橘子 Citrus reticulata、柚子 Citrus maxima），形态差异显著（大小、颜色、形状），但现有识别模型通常针对单一品种设计，限制了在包含多种柑橘的实际果园中的应用范围。第二，轻量化需求迫切。果园多位于山地丘陵，对采摘机器人的计算能力和电力供应构成限制。因此，开发一种计算需求低、能识别多种外观差异明显的柑橘品种、且适合嵌入式系统的算法，对于降低机器人成本、拓展其应用范围具有重要意义。
基于深度学习的目标检测算法（如YOLO系列）在复杂自然场景下的水果识别中已展现出比传统方法更高的准确性和抗干扰能力。其中，YOLOv8因其在多尺度目标识别、遮挡鲁棒性和实时性能方面的良好表现，被选为本研究的基线模型。研究的具体目标是在保证识别精度的前提下，对YOLOv8n模型进行轻量化改进，使其能够同时准确识别橙、橘、柚三种果实，并能在树莓派等边缘计算设备上高效运行，最终集成到机械臂控制程序中，在实际果园环境中进行验证。
二、 详细研究流程
本研究包含一个系统性的工作流程，涵盖了数据准备、模型设计、训练评估、定位算法集成以及实际场景测试。
1. 数据集构建与预处理 研究团队于柑橘成熟期在湖北省多个典型果园（包括华中农业大学柑橘细胞工程与遗传改良团队育种园、校园实践基地及宜昌秭归县果园）采集了原始图像。数据集共包含750张原始图像，其中橙子300张、橘子150张、柚子300张，总计标注了2723个果实实例（橙1144，橘678，柚901）。图像采集设备包括多款手机和Intel RealSense D435i深度相机，覆盖了从0.3米到1.5米的不同成像距离、多个拍摄角度（仰视、俯视、正面、侧面）、以及不同的果实生长状态（稀疏、密集、遮挡、重叠）和光照条件（晴天/阴天下的顺光/逆光）。为确保模型训练的一致性并降低计算负载，所有图像分辨率统一调整为640×480像素。
为了增强数据多样性和模型泛化能力，研究对每张原始图像进行了两轮数据增强，包括旋转、缩放、平移、亮度调整、噪声添加和水平/垂直翻转。最终，数据集扩展至2250个样本，并按7：1：2的比例划分为训练集（1575）、验证集（225）和测试集（450）。此外，针对初始橘子样本数量较少导致的类别不平衡问题，在训练时为橙、橘、柚三个类别分别设置了1：2：1的类别权重。
2. YOLOv8n-Light模型设计与改进 研究以YOLOv8n为基线模型，针对柑橘果实识别的特点和边缘部署的需求，进行了四项核心改进： * 主干网络轻量化：将原始的Backbone网络替换为ShuffleNetV2。该网络通过引入通道混洗（Channel Shuffle）操作和深度可分离卷积（Depthwise Separable Convolution, DwConv），在保持较高特征提取能力的同时，显著降低了模型的参数量和计算复杂度，适合计算资源受限的嵌入式设备。 * 检测头轻量化：设计了一种基于共享卷积（Shared Convolution）的轻量级检测头（Lightweight Head）。传统的检测头为不同尺度的特征图配置独立的卷积核，导致参数量冗余。本设计让多尺度特征图共享同一组卷积核参数，并结合组归一化（Group Normalization, GN） 替代批量归一化（Batch Normalization, BN），有效减少了参数量，同时解决了边缘设备单图推理时BN统计信息不稳定的问题，提升了模型在推理时的稳健性。 * 特征融合模块优化：对特征金字塔网络（FPN）进行重新设计，将SE注意力机制（Squeeze-Excitation Attention） 融入特征拼接（Concat）过程，构建了SE-Concat模块。该模块能对拼接后的特征进行通道自适应加权，增强有用信息的表达，抑制冗余信息，从而提升模型对多尺度目标（尤其是被遮挡或小目标）的特征融合效果。 * 损失函数改进：为优化边界框回归任务，并针对采摘机器人更看重高精度（减少误抓）的需求，对原CIoU损失函数进行了改进。该改进融合了MPDIoU和Focaler-IoU的优点。MPDIoU基于最小点距离的相似度度量，简化计算并综合了重叠面积、中心点距离和宽高偏差。Focaler-IoU则通过设置召回惩罚阈值（d）和精度惩罚阈值（u），动态调整不同IoU区间样本的权重，特别优化了中高IoU样本（对应模型已较好检测到的目标），从而在整体上实现精度与召回的再平衡。经实验验证，设置d=0， u=0.5时取得了最佳效果。
3. 模型训练、评估与对比实验 模型在配置有NVIDIA GeForce RTX3070 Ti的工作站上进行训练，使用SGD优化器，训练200个周期。评估指标包括精度（Precision, P）、召回率（Recall, R）、平均精度均值（mean Average Precision, mAP）以及参数量、计算量（GFLOPs）和推理速度（FPS）。推理速度分别在工作站CPU和树莓派4B（Raspberry Pi 4B）嵌入式平台上进行测试。
为验证各项改进的有效性，研究设计了消融实验。此外，还将最终改进的YOLOv8n-Light模型与多个主流轻量级目标检测网络（包括YOLOv7-tiny, YOLOv8n, YOLOv10n, YOLOv12n, NanoDet-plus-m, EfficientDet-d0）在三种柑橘果实的识别性能上进行了全面对比。
4. 定位算法设计与评估 为将2D识别结果转化为可供机械臂操作的3D空间坐标，研究设计了一套定位算法。该算法核心步骤包括： * 深度图像对齐与坐标计算：利用Intel RealSense D435i深度相机，通过手眼标定获得相机与机械臂末端的坐标转换关系。将YOLOv8n-Light识别出的果实边界框中心点（u, v）与已对齐的深度图像结合，根据相机内参计算出该点在相机坐标系下的三维坐标（xc, yc, zc），其中zc为深度值。 * 半径补偿机制：由于深度相机测量的是果实表面的深度，而非果实几何中心的深度，研究引入了半径补偿。通过边界框宽度和相机焦距估算果实的横向半径，并将此补偿值加到zc上，从而更准确地估计果实中心在深度方向的位置。 * 坐标转换：利用手眼标定得到的外参矩阵，将补偿后的相机坐标系坐标转换到机械臂末端工具坐标系，进而发送给机械臂控制系统。
在实验室模拟环境中，对三种柑橘果实在不同姿态（正向、水平翻转、垂直旋转）下进行了定位精度和半径补偿误差的定量评估。
5. 果园实地测试与实用性验证 最后，研究在实际果园环境中，使用集成了YOLOv8n-Light模型、定位算法和控制程序的六自由度机械臂（ufactory xarm6）及自制末端执行器，对312个果实（橙、橘、柚）进行了抓取测试。测试记录了识别成功率（模型成功检测并框出果实）、定位成功率（算法成功返回有效的三维坐标）和抓取成功率（末端执行器成功抓取果实）三项关键性能指标。
三、 主要研究结果
1. 消融实验结果：消融实验清晰地展示了各项改进的贡献。单独引入ShuffleNetV2使参数量从3.01M降至1.71M，计算量从8.1 GFLOPs降至5.0 GFLOPs，工作站CPU推理速度从10.52 FPS提升至16.70 FPS，但导致mAP下降3.5%。单独引入轻量级检测头对精度影响较小，但提升了速度。单独引入SE-Concat使mAP提升了0.9%。当同时结合ShuffleNetV2、轻量级检测头和SE-Concat时，模型（序列8）参数量大幅降至1.10M，计算量降至3.4 GFLOPs，推理速度在工作站CPU上达到15.35 FPS（较基线提升45.9%），在树莓派4B上达到0.76 FPS（提升38.2%），此时mAP为88.9%（较基线下降2.5%）。在此基础上，引入融合了MPDIoU和Focaler-IoU的改进损失函数（序列9），在保持参数量、计算量和推理速度不变的前提下，将模型精度（P）从88.7%显著提升至92.5%，mAP从88.9%提升至89.4%，同时召回率（R）仅从82.6%微降至82.0%，成功实现了精度与召回率的有利再平衡，更符合采摘机器人对高精度的需求。
2. 模型对三种果实的适用性：在包含450张图像的测试集上，YOLOv8n-Light模型对橙、橘、柚三种果实的综合识别精度（P）、召回率（R）和mAP分别为92.5%、82.0%和89.4%。其中，橙、橘、柚各自的mAP分别达到92.6%、86.9%和88.7%。与原始YOLOv8n及其他轻量模型对比发现，虽然部分模型在某些单项指标上更优（如EfficientDet-d0对橙和橘的精度更高），但YOLOv8n-Light在对三种果实的综合适用性和平衡性上表现更好。例如，在识别密集的橘子和橙子时，原始模型容易出现将橘子误判为橙子或重复识别的情况，而改进模型显著减少了此类错误。尽管原始模型对远处或被严重遮挡果实的召回率更高，但这些果实在实际采摘中往往因超出作业范围或缺乏深度信息而无法被抓取，因此改进模型在实际操作中更具适用性。
3. 模型轻量化效果：最终模型YOLOv8n-Light的参数量仅为1.10M，计算量为3.4 GFLOPs。与YOLOv7-tiny, YOLOv8n, YOLOv10n等模型相比，其在推理速度上具有明显优势。在工作站CPU上，其15.35 FPS的速度远超其他对比模型；在树莓派4B上，0.76 FPS的速度也比其他模型快38.2%到216.7%不等。这表明所采用的轻量化策略有效降低了计算负载，为在资源受限的边缘设备上部署提供了可能。当然，论文也指出，当前在树莓派4B上的速度仍无法满足动态采摘的实时性要求，但证明了其在高性能边缘计算平台（如NVIDIA Jetson系列）上具备达到实时处理能力的潜力。
4. 定位实验结果：在机械臂基坐标系下，定位算法对三种果实中心坐标的预测值与实际值高度吻合。X, Y, Z三个方向的平均误差均控制在10毫米以内。半径补偿机制在不同果实姿态下的预测误差均在6毫米以内。当果实处于垂直旋转姿态时，由于边界框无法适应果实姿态，预测半径会出现一定偏差（例如纵向径大于横向径的橙子，预测半径偏大）。但总体而言，结合半径补偿的定位算法达到了毫米级精度，所有测试果实均能保持在末端执行器的抓取包络范围内，满足实际定位需求。
5. 果园实地测试结果：在实际果园的312次抓取测试中，模型展现了良好的实用性。对于橙、橘、柚，识别成功率分别为93.5%、93.6%和88.3%，定位成功率分别为90.2%、88.1%和83.8%，抓取成功率分别为88.0%、76.1%和68.5%。柚子抓取成功率较低的主要原因包括其果形有时不规则、果实较大（部分超过末端执行器负载能力）以及密集生长导致机械臂运动受到干扰。识别失败主要源于果实被枝叶或其他果实严重遮挡；定位失败主要由于强光影响或果实中心点被遮挡导致深度信息丢失。尽管如此，识别失败的果实通常已在机器人操作范围之外，可通过调整机器位置进行重新检测，因此对整体作业效率影响有限。
四、 研究结论与价值
本研究成功设计并验证了一种基于改进YOLOv8的轻量化、通用性柑橘果实识别模型YOLOv8n-Light。该模型通过引入ShuffleNetV2主干网络、基于共享卷积的轻量级检测头、SE-Concat特征融合模块以及融合MPDIoU与Focaler-IoU的损失函数，在显著降低模型计算复杂度（参数量减少63.5%，计算量减少58%）和提升推理速度的同时，保持了良好的识别精度（mAP 89.4%）以及对橙、橘、柚三种不同形态柑橘果实的适用性。
研究的科学价值在于为农业目标检测，特别是在非结构化、背景复杂、特征不一致的自然环境下的多品类目标识别，提供了一套有效的轻量化模型改进范式。所提出的共享卷积检测头、注意力机制增强的特征融合以及针对特定应用场景（高精度需求）的损失函数再平衡方法，具有借鉴意义。
研究的应用价值尤为突出：它为柑橘采摘机器人提供了一种“通用”的视觉识别解决方案，无需为每个外观差异明显的品种单独开发算法，从而降低了机器人系统的开发成本和技术门槛。集成的定位算法和在实际果园中的成功抓取测试，证明了该技术方案从感知到执行的完整闭环可行性，为柑橘采摘机器人的实际应用和推广提供了重要的技术依据。
五、 研究亮点
目标独特：首次针对橙、橘、柚这三种主要柑橘品类，系统性地研究并开发了一个统一的轻量化识别模型，旨在解决采摘机器人视觉系统对多品种的适应性问题。
改进策略系统且具针对性：改进方案全面覆盖了网络结构（主干、颈部、检测头）和优化目标（损失函数），每项改进都直指轻量化或提升柑橘识别精度的具体挑战（如多尺度、遮挡、计算资源限制、高精度需求）。
验证体系完备：研究不仅进行了标准的模型性能评估和消融实验，还设计了严谨的定位算法精度验证，并最终在实际果园环境中进行了大规模的机器人抓取集成测试，形成了从算法设计、仿真验证到实地应用的全链条验证，结论可信度高。
平衡精度与轻量化的创新：在显著降低模型复杂度和提升速度的前提下，通过精巧的损失函数设计，实现了精度与召回率的有利再分配，使模型更契合机器人采摘作业对减少误操作（高精度）的实际需求。
六、 其他有价值的补充
论文对未来工作进行了展望，指出了几个有潜力的优化方向：包括升级特征融合模块为多尺度交叉注意力融合以提升对密集遮挡果实的检测能力；改进共享卷积机制，使其能自适应关注被遮挡果实的可见特征；在骨干网络中嵌入局部特征增强分支；集成姿态检测网络以提升果实中心点定位精度；优化末端执行器结构以适应不同尺寸的果实（尤其是大型柚子）并集成避障模块。这些方向为进一步提升系统的鲁棒性和实用性提供了清晰的路线图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问