关于“基于轻量化YOLO11-SMMA的机器人视觉伺服用于油茶果采摘”研究的学术报告
一、 研究作者、机构与发表信息
本研究由来自中南林业科技大学湖南省林业装备工程技术研究中心的吴尚尚、陈海飞(通讯作者)、张玉燕、廖凯和李立军共同完成。研究成果以题为《Robot visual servo based on lightweight YOLO11-SMMA for Camellia oleifera fruits harvesting》的原创研究论文形式,发表于国际学术期刊《Computers and Electronics in Agriculture》2026年第243卷。该期刊在农业工程与计算机应用交叉领域具有重要影响力。
二、 学术研究背景
本研究属于精准农业与农业机器人技术的交叉领域,具体聚焦于经济林木果实自动化采收的视觉感知与控制系统。
研究动因:油茶作为中国南方重要的木本油料作物,其果实采收期短且集中。目前主要依赖人工采摘,劳动力成本占总生产成本的35%-45%,已成为产业可持续发展的主要瓶颈。因此,实现油茶果采收的机械化与自动化迫在眉睫。尽管振动采收是研究热点,但油茶“花果同期”的生长特性导致机械振动易造成花蕾脱落,影响来年产量。因此,基于视觉的精准采摘机器人成为更优选择。
技术背景与挑战:深度学习,特别是YOLO系列模型,已在复杂场景下的果实检测中取得显著进展。然而,现有研究存在两大关键挑战:1. 模型效率问题:YOLOv8、YOLO11等模型虽检测性能强,但参数量和计算量庞大,难以在资源受限的移动机器人平台上实时部署。2. 感知维度局限:多数研究仅进行基于RGB图像的2D检测,无法提供机器人执行精准抓取所必需的三维空间位置信息。一些低成本RGB-D传感器虽能获取深度信息,但其横向精度有限,难以满足高精度抓取的空间定位需求。
研究目标:为应对上述挑战,本研究旨在开发一套集高效检测与精准三维定位于一体的机器人视觉伺服系统,以实现油茶果的自动化采收。核心目标是提出一个兼顾轻量化与高精度的改进型YOLO检测模型,并将其与立体视觉相结合,构建从视觉感知到机械臂动作执行的端到端闭环系统。
三、 详细研究流程
本研究遵循一个系统性的工作流程,主要包括四个部分:数据集构建、模型改进、模型检测与性能对比、手眼协调定位与采摘实验。
1. 数据集构建 * 数据采集:研究团队于2024年7月至10月,在位于湖南浏阳的中南林业科技大学油茶育种示范基地进行数据采集。对象为株高1-2米的油茶树,使用iPhone 12手机采集了总计885张RGB图像。采集策略充分考虑了实际作业场景的复杂性:拍摄角度(相机与树干夹角0-45度)、拍摄高度(0.9-1.8米)、拍摄距离(0.6-1.8米)均在一定范围内变化;涵盖了不同天气(晴、阴)和光照条件(自然光、背光、过曝);同时包含了果实无遮挡、轻度遮挡和严重遮挡等多种情况。 * 数据标注与增强:使用LabelImg软件对885张原始图像中的油茶果进行边界框手动标注。随后,将数据集按约7:1.5:1.5的比例划分为训练集(607张)、验证集(139张)和测试集(139张)。为提升模型鲁棒性并防止过拟合,仅对训练集进行了数据增强,操作包括:对称翻转、亮度调整、添加高斯噪声、平移和旋转。增强后,训练集图像数量增至1246张,整个数据集总计1524张图像。测试集包含1283个处于不同光照和遮挡条件下的油茶果实例,确保了评估的统计代表性和稳健性。
2. 模型改进:YOLO11-SMMA的提出 本研究以YOLO11n为基线模型,进行了多项关键改进,旨在实现轻量化的同时提升在复杂环境下的检测性能。改进后的模型命名为YOLO11-SMMA。 * 轻量化骨干网络替换:将原YOLO11n的骨干网络替换为StarNet。StarNet的核心创新在于“星型操作”,该操作通过逐元素的智能乘法,将输入特征隐式映射到高维非线性空间,从而在不增加通道数的情况下增强了特征表示能力。此举旨在显著降低模型参数和计算量,同时保持强大的特征提取能力。 * 高效的检测头设计:在检测头的回归分支中集成了源自EfficientNet的MBConv模块。该模块采用深度可分离卷积,先通过1x1卷积扩展通道数,再进行深度卷积提取空间特征,最后通过1x1卷积压缩通道数,并可选地加入SE注意力模块。这种设计在保持较强特征提取能力的同时,大幅降低了计算开销,非常适合移动平台。 * 增强特征提取与注意力机制:在模型的C2PSA模块中嵌入了MLCA注意力机制。MLCA通过测量神经元间相似性动态分配权重,同时构建全局和局部分支来捕获通道与空间特征,以低计算成本提供了更丰富的特征表示,提升了模型在复杂光照和背景干扰下的鲁棒性。 * 改进的多尺度特征融合颈部:用ASF-YOLO颈部结构替代了原模型的颈部。ASF-YOLO集成了尺度序列特征融合(SSFF)、三重特征编码器(TFE)和通道-位置注意力模块(CPAM),旨在强化多尺度特征融合能力,特别是提升对小目标和遮挡目标的检测性能,以弥补模型轻量化可能带来的精度损失。
3. 模型检测与性能对比实验 所有实验在统一的硬件和超参数设置下进行。训练使用AdamW优化器,图像尺寸640x640,批次大小8,共训练400个周期。 * 消融实验:为验证各个改进模块的有效性,研究团队设计了系统的消融实验。实验结果表明,逐步引入StarNet、MBConv头部、ASF-YOLO颈部和MLCA注意力机制后,最终模型(YOLO11-SMMA)在保持高精度的同时,参数量降至158万(减少36.4%),计算量降至4.0 GFLOPs(减少37.5%),模型大小仅为3.5 MB。检测精度(mAP@50)达到85.7%,较基线YOLO11n(85.1%)提升0.6%,推理速度从11.4毫秒提升至9.5毫秒(提升16.7%)。这证明了各模块协同工作在实现轻量化与性能提升间的有效平衡。 * 轻量化骨干网络对比实验:将StarNet与MobileNetV4、ShuffleNetV1、VanillaNet、GhostNet等其他主流轻量化骨干网络进行对比。结果显示,基于StarNet的模型在mAP@50上显著优于其他对比模型,同时保持了最低的参数量、计算成本和模型大小之一,验证了StarNet在本次任务中的优越性。 * 主流模型对比实验:将YOLO11-SMMA与YOLOv5n、YOLOv6n、YOLOv8n、YOLOv9t、YOLO11n、YOLO12n等主流轻量级模型进行对比。在相同测试集上,YOLO11-SMMA取得了最高的mAP@50(85.7%),并且在参数量和计算量上具有明显优势。其推理速度(9.5毫秒)虽略慢于YOLOv5n和YOLOv8n,但仍在实时范围内,且精度更高。 * 复杂环境下的检测性能对比:在包含不同光照和遮挡情况的测试集上进行详细评估。YOLO11-SMMA成功检测到1053个果实,漏检数(230)最低,误检数(216)与其他先进模型相当。可视化结果和热力图(Grad-CAM)分析进一步显示,YOLO11-SMMA对油茶果目标的注意力更加集中和准确,与背景分离更清晰,尤其在遮挡和光照变化场景下表现出更强的稳健性。
4. 手眼协调定位与采摘实验 此部分旨在将2D检测结果转化为机器人可执行的3D抓取指令,并验证整个系统的实用性。 * 系统搭建:硬件平台包括:Taobotics Thunder无人地面车辆(UGV)、UFACTORY xArm6六自由度机械臂、搭载力反馈的柔性夹爪G-T200,以及作为视觉传感器的Intel RealSense D435i RGB-D相机(采用主动立体视觉原理)。相机以“眼在手”方式安装在夹爪上方5厘米处,随机械臂同步移动。 * 三维定位流程: 1. 设备标定:使用棋盘格标定相机内参(重投影误差<0.15像素),并使用Tsai-Lenz算法进行手眼标定,求解相机到机械臂基座的变换矩阵。 2. 2D检测与像素坐标获取:YOLO11-SMMA模型对RGB图像进行推理,计算预测边界框的几何中心作为抓取点像素坐标。 3. 深度信息提取:从与RGB图像对齐的深度图中,获取抓取点区域的深度值。为抑制深度传感器噪声,采用了一系列优化处理:基于域变换的边缘保持平滑空间滤波、用于填补无效深度孔洞的孔洞填充滤波,以及对边界框中心感兴趣区域(ROI)进行中值滤波,而非使用单点深度值。 4. 相机坐标系计算:依据针孔相机模型和相机内参矩阵,将像素坐标与深度值结合,通过反投影计算目标点在相机坐标系下的三维坐标 (X, Y, Z)。 5. 坐标变换与机械臂控制:利用ROS中的TF变换模块,将相机坐标系下的3D坐标转换到机器人基座坐标系,作为机械臂末端执行器的目标位姿输入,驱动夹爪进行抓取。 * 定位精度对比实验:在采收机器人平台上,对比了不同检测模型的相对定位精度。通过计算模型预测的边界框中心与从同一深度帧中提取的、基于果实轮廓的深度一致参考几何中心之间的偏差进行评估。结果表明,YOLO11-SMMA在X、Y、Z三个方向上的平均定位误差分别为1.70毫米、1.34毫米和1.27毫米,优于大多数对比模型。其端到端处理时间(包括检测和坐标计算)为58.21毫秒,在精度和实时性之间取得了良好平衡。 * 实地部署与抓取验证:将YOLO11-SMMA模型部署于采收平台内置的先进嵌入式控制器上,在真实果园环境中进行了完整的采收流程验证。系统能够自主完成从车辆接近目标树、视觉识别与定位、机械臂轨迹规划与抓取、果实放入收集篮到机械臂复位的全闭环操作,证明了该集成系统的可行性与可靠性。
四、 主要研究结果
这些结果层层递进:首先,轻量化高精度模型的成功开发是整个研究的基础,它确保了在资源受限的移动平台上实现实时、可靠的果实检测。其次,模型在复杂环境下的优异鲁棒性是其能够应用于真实果园的前提。接着,高精度的三维定位结果是将2D检测转化为机器人 actionable 指令的关键桥梁。最终,系统的成功集成与实地验证,则是所有前述技术成果价值的集中体现,标志着本研究不仅停留在算法层面,更推进至系统工程与应用验证阶段。
五、 研究结论与价值
本研究提出并验证了一种基于轻量化YOLO11-SMMA模型与立体视觉的机器人视觉伺服系统,用于实现油茶果的高效、精准自动化采收。
科学价值: 1. 模型架构创新:提出了一种针对农业复杂场景优化的轻量化目标检测模型改进范式,通过StarNet、MBConv、MLCA与ASF-YOLO的有机结合,为在资源受限平台上部署高性能检测模型提供了可借鉴的架构设计方案。 2. 端到端系统集成方法:展示了一套完整的从视觉感知到机器人动作执行的“感知-决策-控制”闭环系统构建方法,涵盖了数据集构建、算法优化、传感器融合、坐标变换和硬件集成等关键环节,为农业机器人研究提供了系统的技术参考。
应用价值: 1. 推动油茶产业机械化:为解决油茶果采收劳动力成本高、效率低的产业瓶颈提供了切实可行的自动化技术方案,有助于提升产业效益和可持续性。 2. 提供可迁移的技术框架:本研究提出的轻量化模型改进思路和视觉伺服系统框架,可扩展应用于其他类似果树(如柑橘、苹果等)的自动化采收场景,具有广泛的适用前景。 3. 促进嵌入式AI在农业中的应用:验证了先进深度学习模型在移动嵌入式设备上实时运行的可行性,推动了人工智能技术在田间地头的落地应用。
六、 研究亮点
七、 其他有价值内容
研究团队在讨论部分展望了未来的工作方向,包括:优化末端执行器设计以适应果实姿态,提升抓取稳定性;对系统整体性能(如导航效率、采收成功率、环境适应性)进行系统评估;收集不同地区和品种的油茶果图像以增强数据多样性;采用图像合成技术解决数据不平衡问题;在机械臂控制中集成更先进的视觉伺服策略等。这些思考为后续研究的深入指明了路径。
此外,论文提供了完整的硬件系统配置细节(见表1)和训练参数设置(见表3),具有很好的可复现性。研究所构建的油茶果图像数据集也将根据请求提供,这对推动该领域的研究具有积极意义。