本研究由Jiaren Zhou、Mengyan Chen、Man Zhang、Zhao Zhang、Yao Zhang以及通讯作者Minjuan Wang(王敏娟,邮箱:minjuan@cau.edu.cn)共同完成。作者主要来自中国农业大学信息与电气工程学院、教育部智能农业系统重点实验室,位于北京。该研究以题为《Improved YOLOv8 for Multi-Colored Apple Fruit Instance Segmentation and 3D Localization》发表于期刊 Artificial Intelligence in Agriculture 的2026年第16卷,文章已于2025年10月31日在线发表,DOI为10.1016/j.aiia.2025.10.013。
该研究的学术背景聚焦于农业工程与人工智能的交叉领域,具体是计算机视觉在农业机器人中的应用。随着全球苹果消费需求的增长,传统人工采摘面临劳动力密集、成本高、效率低等挑战,自动化机器人采摘成为重要发展方向。然而,实现高效、精准的机器人采摘面临两大核心技术瓶颈:一是果园环境复杂,存在光照多变、枝叶遮挡(occlusions)以及苹果本身具有红、绿、黄等多种颜色的问题,这对果实的高精度识别与分割(segmentation)提出了严峻挑战;二是采摘动作的执行依赖于对果实精确的三维空间定位(3D localization)。现有的深度学习模型在复杂场景下对多色苹果的分割鲁棒性和准确性不足,且多数研究仅针对常见的红色苹果,限制了模型的泛化能力。同时,三维定位方法如单目多视角、双目视觉或RGB-D相机各有优缺点,需要与高精度的分割结果相结合,才能实现从感知到执行的闭环。因此,本研究的目标旨在开发一套改进的YOLOv8实例分割模型,专门用于分割不同颜色的苹果,并构建一个与分割模型紧密结合的高精度三维定位与形状重建流程,以推动多色苹果自动化采摘技术的实用化进程。
研究的详细工作流程清晰,主要包含四大核心环节:数据集构建与预处理、模型改进与设计、模型训练与评估、以及三维定位与形状重建。
首先,在数据集构建与处理方面,研究团队在2023年8月至10月期间,于中国陕西延安洛川县和北京怀柔区两地的四个标准化果园中,使用Intel Realsense D435i深度相机(采集RGB、深度和红外图像)以及三款智能手机(iPhone 13, 小米13, vivo X21)采集了多色苹果图像。数据集包含红、绿、黄三种颜色的苹果,其中红色苹果1435张,绿色苹果354张(后补充公开数据集至1006张),黄色苹果1043张。为了增强模型的泛化性和避免地域偏差,图像采集涵盖了不同天气(阴天、晴天)、不同时间段(早晨、下午)以及不同光照角度(逆光、顺光、侧光)。所有图像均使用集成了SAM(Segment Anything Model)的图像分割标注工具ISAT进行像素级实例标注,并将标注转换为YOLO模型兼容的格式。针对数据量不平衡的问题,研究采用了离线的旋转、镜像增强和在线马赛克(Mosaic)增强技术,最终构建了一个包含5171张图像的多色苹果数据集,并按6:2:2的比例划分为训练集、验证集和测试集。
其次,在模型改进与设计方面,研究以YOLOv8(特别是其实例分割版本YOLOv8s-seg)为基础模型,针对不同颜色苹果的视觉特性,提出了四种改进模型。 1. RA-YOLO(Red Apple YOLO):针对红色苹果常密集生长、遮挡严重且大小不一的特点进行优化。主要改进点包括:(a)引入聚集-分发机制(Gather-and-Distribute, GD) 重构颈部(neck)特征融合模块。该机制包含特征对齐(FAM)、信息融合(IFM)和信息注入(Inject)三个子模块,旨在减少传统特征金字塔(FPN/PAN)中跨层信息迭代融合时的丢失,提升对遮挡和小目标的检测能力。具体分为低阶GD和高阶GD,分别处理不同层级的特征。(b)在骨干网络(backbone)的C2F模块中引入EmbConv模块。该模块基于高效网络EfficientNet的MBConv(Mobile Inverted Residual Bottleneck Block)构建,并集成了轻量化的高效压缩激励(effective Squeeze-and-Excitation, eSE)注意力机制,旨在以较低的计算成本保留更多细节特征。 2. GA-YOLO(Green Apple YOLO):针对绿色苹果与背景(树叶)颜色相似、对比度低的挑战进行优化。主要改进点包括:(a)引入动态蛇形卷积(Dynamic Snake Convolution, DSConv) 替换骨干网络中C2F模块的标准卷积。DSConv通过沿X和Y轴方向累积偏移量来动态调整卷积核采样点,使其能够更好地贴合物体边缘的平滑形状,从而增强模型对果肉与叶片锯齿状边缘的区分能力。(b)在检测头(head)中新增一个P6层。鉴于绿色苹果数据集中大尺寸目标(像素大于96x96)占比超过75%,添加64倍下采样的P6层有助于模型获取更大的感受野和更丰富的上下文信息,从而提升对大目标的检测性能。 3. YA-YOLO(Yellow Apple YOLO):针对黄色苹果研究较少、且常因颜色接近阳光而导致过曝、边界模糊的问题进行优化。主要改进点包括:(a)在骨干网络的C2F模块中引入可变形卷积网络v2(Deformable Convolutional Networks v2, DCNv2)。DCNv2通过学习空间偏移量,使卷积核能够自适应地贴合目标的几何形状,从而更有效地提取非规则形状的特征。(b)提出一种新颖的多路径坐标注意力机制(Multi-Path Coordinate Attention, MPCA) 并与DCNv2结合。MPCA在传统坐标注意力(CA)的两个空间编码路径基础上,增加了一个全局平均池化分支,以融合图像级的语义上下文信息,然后通过平均操作融合三个分支的特征,最后生成注意力权重。这有助于模型在过曝和光照不均条件下更好地聚焦于目标。 4. MCA-YOLO(Multi-Colored Apple YOLO):这是一个集成模型,旨在同时精准分割混合颜色的苹果。它综合了以上三个模型的优势:引入了GA-YOLO的P6层以检测大目标,采用了YA-YOLO的DCNv2以增强几何适应性,并集成了RA-YOLO的EmbConv模块以优化特征提取。这使得MCA-YOLO在保持与基线模型YOLOv8s-seg相近的参数量(约1180万)和计算复杂度(约42.7 GFLOPs)的同时,具备了处理多色复杂场景的能力。
第三,在模型训练与评估方面,所有实验在配备双NVIDIA GeForce RTX 3060 GPU的计算机上进行。模型使用PyTorch框架训练400个周期(epoch)。评估指标采用精确率(Precision)、召回率(Recall)、F1分数(F1-Score)和平均精度均值(mean Average Precision, mAP)。研究对每个改进模型都进行了详细的消融实验(Ablation Experiment),以验证每个新增模块(如GD、EmbConv、DSConv、P6、DCNv2、MPCA)的必要性和有效性。同时,将改进模型与基线模型(YOLOv5s, YOLOv8s)以及文献中报道的最佳模型进行了对比。
第四,在三维定位与形状重建方面,研究搭建了一套基于RGB-D相机的定位流程。首先,使用性能最佳的MCA-YOLO模型对RGB图像进行实例分割,获得每个苹果的掩码(mask)。然后,从深度相机(Intel Realsense D435i)采集的已对齐的深度图像中,提取对应掩码区域的深度信息。接着,利用相机内参将二维像素坐标和深度值转换为三维点云。对点云进行统计滤波和下采样以去除噪声后,采用K-means聚类将属于不同苹果的点云分离。最后,假设苹果形状近似球体,使用随机采样一致性算法(RANSAC)对每个苹果的点云进行球形拟合。拟合出的球体中心坐标即为苹果的三维空间位置,球体直径则用于估计苹果的尺寸(形状重建)。为评估定位精度,研究在室内设置了模拟果树(红、绿、黄苹果各四个),固定相机并水平移动一段已知距离d(红:45mm, 绿:30mm, 黄:80mm),通过计算移动前后定位坐标在Z轴上的差值δd与已知距离d的偏差,得出定位误差(e = δd - d)和误差率(r = e / d)。形状重建误差则通过比较模型估算的直径与实际用卡尺测量的直径来获得。
本研究取得了系列重要结果。在实例分割性能上,各改进模型在单色苹果测试集上均显著超越了基线模型和文献中的先进模型。RA-YOLO在红色苹果分割上的mAP达到95.2%,GA-YOLO在绿色苹果上达到96.4%,YA-YOLO在黄色苹果上达到95.4%。特别值得注意的是,集成模型MCA-YOLO不仅在对混合多色苹果的整体分割上取得了最高的95.6% mAP,在对各单色苹果子集的分割上也表现优异(红:95.6%, 绿:96.6%, 黄:94.6%)。消融实验曲线清晰地显示,随着每个改进模块的加入,模型的mAP和F1分数均有稳步提升,证实了所有模块设计的有效性。可视化结果显示,改进模型在严重遮挡、颜色混淆和过曝等复杂情况下,相比基线模型显著减少了漏检和误检,分割边界更为准确。
在三维定位与形状重建精度上,该研究提出的流水线实现了毫米级的高精度。对12个苹果(三种颜色各四个)进行的定位实验结果显示,平均定位误差为2.636毫米,平均误差率为5.1%。形状重建的平均误差仅为0.768毫米,达到了亚毫米级的精度。这表明,结合高精度的实例分割和深度信息,可以有效地为机器人末端执行器提供足够精确的空间坐标和果实尺寸信息。
基于以上结果,本研究得出的核心结论是:通过针对不同颜色苹果的视觉特性对YOLOv8模型进行专项改进(RA-YOLO, GA-YOLO, YA-YOLO),能够显著提升在复杂果园环境下的实例分割精度。进一步地,融合这些改进优势的MCA-YOLO模型,能够实现对多色苹果混合场景的鲁棒、高精度分割。结合此分割模型与RGB-D相机深度信息的三维定位与重建流程,能够实现毫米级的空间定位和亚毫米级的形状估算精度。这为自动化苹果采摘机器人提供了一套从视觉感知到空间定位的完整、实用的技术方案。
本研究的科学价值和应用价值显著。在科学层面,它深入探索了基于特定目标特性(颜色、形状、尺寸)定制化改进通用目标检测/分割模型(YOLOv8)的范式,提出了如GD机制、DSConv与P6层结合、MPCA与DCNv2融合等创新性模块,为小样本、多类别、复杂背景下的农业目标识别提供了新的技术思路和可复现的模型架构。在应用层面,研究直接瞄准了自动化采摘中的核心痛点——多色识别与精确定位,所提出的模型和流程具有明确的工程落地前景,有助于降低自动化采收系统的部署成本,提高作业效率和可靠性,对推动智慧农业和农业机器人产业发展具有积极意义。
本研究的亮点突出体现在以下几个方面:第一,问题导向明确且具有挑战性,专注于解决实际果园中多色苹果、复杂遮挡和光照条件下的识别与定位难题,而非单纯的模型精度竞赛。第二,模型改进具有高度针对性,并非采用“一刀切”的优化策略,而是根据红、绿、黄苹果各自独特的视觉挑战(遮挡、颜色混淆、过曝)设计不同的改进方案,体现了精细化的设计思想。第三,实现了“感知-定位”的完整闭环,不仅关注分割精度,更将分割结果与三维空间信息无缝对接,形成了一个可直接服务于机器人抓取的系统级解决方案。第四,实证数据充分可靠,通过大规模自建数据集、详尽的消融实验、与多种基线及前沿模型的对比,以及严谨的室内定位精度定量评估,全面验证了所提方法的有效性和优越性。第五,模型实用性考量周全,MCA-YOLO在集成多种改进后,模型大小和计算量仍与基线模型保持相当,显示出良好的部署潜力。
此外,研究也坦诚地指出了当前工作的局限性和未来方向,例如绿色和黄色苹果的训练场景相对简单可能导致模型波动、单视角点云拟合存在固有局限、模型尚未在真实硬件平台上部署测试等。这些思考为后续研究指明了改进和验证的重点,包括增加数据集复杂性和多样性、探索轻量化设计、结合多视角重建提升几何精度以及开展实地田间试验等。这些后续工作规划进一步提升了本研究的完整性和前瞻性。