本文报告了一项关于玉米冠层下导航线提取的原始研究,属于类型a。以下是对该项研究的学术报告:
一、 研究团队与发表信息
本项研究由中国农业大学的Chao Ban、Tong Su、Ruijuan Chi*、Guohui Fu团队与国家智能农业动力装备重点实验室(河南洛阳)的Lin Wang合作完成。研究论文题为《Fusion of monocular camera and 3D LiDAR data for navigation line extraction under corn canopy》,作为特刊文章,发表在农业信息学领域的国际期刊*Computers and Electronics in Agriculture*第232卷(2025年),文章识别码为110124。
二、 研究学术背景
本研究属于农业机器人自主导航与计算机视觉、传感器融合的交叉学科领域。研究的背景源于现代农业,特别是玉米生产中后期田间自动化作业的实际需求。玉米作为全球第二大种植作物,其生长全周期的监控、喷药、施肥等作业对保障产量至关重要。然而,随着农业生产现代化,农村劳动力短缺问题日益凸显,具备自主作业能力的农业机器人成为有效解决方案,而自动导航技术是其核心。
现有的导航技术主要分为两类:基于全球导航卫星系统(Global Navigation Satellite System, GNSS)的全局定位和基于环境感知传感器的局部定位。前者依赖信号质量和地图精度,无法适应局部实时环境;后者则利用传感器实时提取导航线,调整机器人与作物行的相对位置,部署更灵活且能避免伤苗。对于早期生长期的玉米田,由于植株矮、冠层窄,作物与地面在颜色或高度上差异明显,传感器置于冠层上方的导航线提取方法已较为成熟。然而,对于中后期生长的高秆、宽冠层玉米田,茂密的植株、交叉的叶片、行间杂草以及多变的光照条件,使得冠层上方的导航线提取变得极为困难。虽然农业无人机不受植株影响,但其无法穿透冠层对特定区域(如虫害部位或根部)进行精准作业。因此,亟需开发一种适用于中后期玉米田的导航线提取方法,通过将传感器安装在机器人较低位置,感知冠层下环境,以引导高地隙或窄型机器人作业。
与冠层上方方法相比,冠层下的导航线提取研究较少,且主要基于相机。现有方法或依赖传统图像处理技术(如特征提取、二值化、形态学去噪等),其仅能关注低维特征,在光照变化、叶片交叉和背景差异大的环境下鲁棒性不足;或采用深度学习技术(如Faster R-CNN, YOLOv5)识别玉米根部,但易被杂草遮挡导致检测失败。虽然玉米茎秆在图像中不易被地面杂草和叶片完全遮挡,但仅从部分被遮挡的二维茎秆图像片段中选择可靠的定位点具有挑战性。另一方面,激光雷达(LiDAR)具有测距精度高、不受自然光影响的优点,但其点云相对稀疏、缺乏丰富纹理信息,难以准确消除叶片对玉米定位点的影响。现有方法所利用的特征(如根部、茎秆边缘等)在复杂的玉米冠层环境下极易受到干扰。值得注意的是,玉米茎秆的形态通常不受自然条件改变,是更稳定的参考特征,但单一的相机或激光雷达传感器均难以精确确定茎秆的空间位置。鉴于融合相机与激光雷达多模态信息以提取玉米冠层下导航线的方法尚存空白,深入研究这种融合方法至关重要。
因此,本研究旨在提出一种特征级融合方法,利用玉米冠层下的茎秆作为参考,融合单目相机与三维激光雷达的数据,以准确、实时地提取导航线,为高秆作物田间的农业机器人自动导航提供新策略。
三、 详细研究流程与方法
本研究的工作流程是一个完整的端到端系统,主要包括三个步骤:基于深度学习的图像语义分割、基于分割掩码的点云处理与滤波、以及基于点云聚类与拟合的导航线生成。
1. 传感器配置与数据采集 研究使用的环境感知传感器包括一台Basler aca1920-40gc单目相机和一台RoboSense RS-LiDAR-32三维激光雷达。两者刚性连接并硬同步,安装在农业机器人距地面约30厘米的较低位置,以感知玉米冠层下的环境。数据采集于2023年7月在中国农业大学上庄实验站进行。机器人以0.5米/秒的速度在玉米冠层下行驶,传感器以每秒10帧的频率同步采集分辨率1920×1200像素的RGB图像和包含57,600个点的三维点云。通过相机针孔模型和激光雷达扫描原理,利用标定得到的内参矩阵、畸变模型和外参矩阵,将激光雷达点云投影到图像平面,实现传感器间的空间同步。
2. 图像语义分割:Stemformer网络 为从图像中分割出作为导航参考的玉米茎秆和地面,研究团队构建了一个新颖的、基于Transformer的双分支语义分割网络,命名为Stemformer。该网络的设计核心是在保证高性能的同时最小化模型复杂度,以适应有限的计算资源。 * 数据集构建:研究从不同天气、不同田块收集的各种场景中选取图像,构建了高质量数据集。使用LabelMe软件对图像中的地面和两侧3-5株玉米的茎秆进行多边形标注(地面为绿色,茎秆为红色,背景为黑色)。为避免过拟合,通过水平翻转、随机遮挡、添加高斯噪声、颜色变换和随机旋转等数据增强方法,将数据集样本量扩充至3000张,并按8:1:1的比例划分为训练集、验证集和测试集。 * 网络结构:Stemformer的整体结构包含共享主干、空间分支、纹理分支以及双边特征融合(Bilateral Feature Fusion, BFF)模块和多尺度空间池化金字塔(Multi-scaled Spatial Pooling Pyramid, MsPP)模块。输入图像首先经过共享主干(基于MobileNetV2块)进行初步下采样和特征提取。随后,网络分为两支:空间分支继续使用CNN-based的MobileNetV2块提取局部空间特征;纹理分支则结合MobileNetV2块和Transformer-based的MobileViT块,以提取全局上下文信息。BFF模块被插入到网络中,促进两个分支特征图之间的交互与融合,从而丰富输入后续阶段的信息。MsPP模块被引入纹理分支末端,它结合了不同扩张率的空洞卷积(针对地面)和条带卷积核(3×1, 5×1, 1×3, 1×5,针对条状茎秆),以增强对条状目标的长程特征依赖,提升茎秆分割精度。最终,融合两个分支的特征图,通过分割头(SegHead)生成与输入图像同尺寸的预测掩码。 * 训练细节:网络使用结合了加权交叉熵损失和Dice损失的混合损失函数,以解决数据集中背景(80.47%)、地面(13.23%)和茎秆(6.30%)的类别不平衡问题。在配备NVIDIA GTX 4050 GPU的计算机上,使用PyTorch框架,采用Adam优化器,以0.001的学习率和4的批量大小训练了100个epoch。
3. 点云处理与自适应半径滤波 获得图像语义分割掩码后,利用该掩码对同步的激光雷达点云进行初分类,得到地面点云和茎秆点云。 * 地面平面拟合与茎秆点云降维:首先对地面点云使用带角度约束的随机采样一致性(RANSAC)算法拟合地面平面模型。角度约束指限制平面法向量与垂直方向(0,0,1)的夹角在阈值(λ=15°)内,以适应不平坦的农田地表但防止拟合失败。根据拟合出的平面模型构造旋转矩阵,对茎秆点云进行坐标变换,将其投影到二维水平面上,实现点云降维,简化后续处理。 * 自适应半径滤波(Adaptive Radius Filter, ARF):由于相机成像和点云投影原理,基于图像掩码分割出的茎秆点云仍包含噪声(如叶片点、离散噪声点)。传统半径滤波(RF)或统计滤波(SF)对所有距离的点云使用统一参数,无法准确滤除不同距离的噪声。本研究提出了一种ARF算法。其核心思想是:根据激光雷达的扫描特性,近处茎秆点云密度高,远处密度低。因此,算法首先沿x轴方向将点云区域划分为近、中、远三个区域(A1, A2, A3),并将中等区域A2进一步细分为四个子区域。搜索半径(r)固定为0.1米,但滤波阈值(ξ)根据每个(子)区域内的点云数量自适应计算。对于每个点,遍历其半径为r的邻域内点数,若低于其所在区域的阈值ξ,则被视为噪声滤除。这种方法能够根据点云分布自适应调整滤波严格度,更精确地保留可靠的茎秆点。
4. 作物定位点检测与导航线拟合 经过滤波后,得到高置信度的二维茎秆点云,用于最终导航线拟合。 * 基于DBSCAN的植株定位点提取:使用基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)算法对滤波后的茎秆点云进行聚类。算法参数设置为:搜索半径(r_d)= 0.05米,最小点数(ε)= 10。为加速聚类过程,研究采用了两个技巧:首先根据点的x坐标将点云预分为左右两侧分别聚类;其次为待聚类点构建KD-Tree数据结构以加速邻域搜索。DBSCAN能够将高密度的茎秆点区域聚类成簇,每个簇代表一株玉米。计算每个簇的几何中心,即得到玉米植株在二维水平面上的定位点。 * 基于最小二乘法(LSM)的导航线拟合:将左右两侧的植株定位点分别用LSM拟合出两条作物行的中心线。随后,随机选取两条平行于y轴的直线,计算它们与两条中心线的四个交点,进而得到两个中点。最后,通过这两个中点拟合出最终的导航线,并计算其航向角(θ),为农业机器人的转向控制提供关键信息。
四、 主要研究结果
1. Stemformer网络性能结果 通过消融实验和与现有先进网络的对比,验证了Stemformer的优越性。 * 消融实验:研究表明,BFF模块和MsPP模块对提升网络分割精度至关重要。当两者同时集成到基线网络(小型MobileViT配置)时,分割精度达到最高,平均交并比(mean Intersection over Union, mIoU)为86.40%,平均像素精度(mean Pixel Accuracy, mPA)为93.20%。单独的MsPP模块能显著提升mIoU和mPA,而单独的BFF模块虽提升了mIoU但略微降低了mPA,说明BFF增强了网络分割的灵敏度,但MsPP对精度提升贡献更直接。 * 对比实验:与U-Net, HRNet, DeepLabV3+, PSPNet(CNN-based)以及TransUNet, Segmenter, PAR, SegFormer(Transformer-based)共8种先进网络相比,Stemformer在测试集上取得了最高的mIoU(86.40%)和mPA(93.20%)。同时,其模型复杂度最低,参数量(Params)仅为2.15 MB,浮点运算量(FLOPs)为11.13 G,平均分割时间(MST)为24.93毫秒。特别是在定性结果中,Stemformer能准确分割玉米茎秆,避免将杂草误判为茎秆,且地面分割结果与真实标签高度吻合,分割边缘平滑、区域完整。
2. 自适应半径滤波(ARF)性能结果 在正常、遮挡和出口三种场景下各选取20帧点云进行测试,以人工分割的茎秆点云作为参考基准。对比ARF、RF和SF三种滤波器的性能。结果显示,在三种场景下,ARF的F1分数(综合精度)均为最高,分别为95.86%、96.13%和95.92%,均优于RF和SF。这表明ARF能够根据点云在不同距离上的分布自适应调整阈值,更有效地滤除非茎秆点和离群点,为后续精确提取植株定位点奠定了基础。
3. 导航线提取精度与实时性结果 从三种场景(正常、遮挡、出口)中各选取200组图像和点云数据(涵盖不同光照条件)进行导航线提取测试。 * 提取精度:在正常场景下,导航线提取的正确率(Correct Rate, CR)最高,达到98.00%,航向角平均绝对误差(Mean Absolute Error, MAE)为1.13°。在遮挡和出口场景下,由于可见茎秆区域减少或数量减少,精度有所下降,CR分别为92.50%和90.50%,MAE分别为1.57°和1.90°。综合所有600组数据,本方法导航线提取的整体正确率为93.67%,航向角MAE为1.53°,标准差(SD)为1.46°。与最新研究(Gai等人,2021年)报告的航向角MAE 3.2°相比,本方法误差降低了约52%,显著提升了导航精度。 * 实时性能:对整个融合方法的运行时间进行统计分析。图像语义分割(T1)的平均耗时占比最高,即使在GPU加速下仍约占整个流程的一半。点云处理(T2)平均耗时约占三分之一,导航线拟合(T3)耗时最短。该方法处理单组数据的总体最大运行时间不超过80.58毫秒,低于传感器数据采集周期(100毫秒),满足了导航线提取的实时性要求。
五、 研究结论与价值
本研究成功提出并验证了一种融合单目相机与三维激光雷达数据的特征级导航线提取方法,用于玉米冠层下的农业机器人自主导航。主要结论如下: 1. 设计并实现了基于Transformer的语义分割网络Stemformer,能够准确分割图像中的地面和玉米茎秆,在保持低模型复杂度的同时,其分割精度优于当前多种先进网络。 2. 提出了用于二维茎秆点云的自适应半径滤波(ARF)方法,能够根据点云分布分区自适应调整滤波阈值,有效滤除噪声,为精确定位植株提供了高质量点云。 3. 采用DBSCAN聚类与LSM拟合相结合的策略,实现了玉米冠层下导航线的准确、稳健提取。实验结果表明,该方法导航线提取整体正确率达93.67%,航向角误差小(MAE=1.53°),且整体运行时间小于80.58毫秒,满足实时性要求。
本研究的科学价值在于,首次深入研究了相机与激光雷达在多模态信息融合下提取玉米冠层下导航线的方法,为解决高秆、茂密作物环境下机器人“看不清”的难题提供了一种有效的技术路径。其应用价值显著,所提取的高精度、实时的导航线可直接用于控制农业机器人的转向,使其能够沿作物行自主行驶,适用于中后期玉米田的监控、喷药、施肥等自动化作业,有望缓解农业劳动力短缺问题,提高作业效率。
六、 研究亮点
七、 其他有价值内容
研究团队也坦诚指出了当前方法的两个局限性:一是传感器系统硬件成本较高、复杂度较高;二是虽然玉米叶片不会导致导航完全失败,但叶片对传感器的瞬时遮挡可能导致视野暂时减少甚至消失。此外,该方法目前仅在玉米冠层下测试,在其他高秆作物或果园环境中的性能有待进一步验证。
针对这些局限,作者展望了未来的工作方向:例如探索使用作物分离器推开遮挡传感器的叶片,开发滤波器在短暂失效时跟踪导航线;研究通过多传感器分布式感知增强对茎秆的感知能力;尝试在保持精度的同时简化传感器系统;并将该方法拓展至其他高秆作物(如高粱)或果园环境下的应用测试。这些思考为该领域的后续研究提供了清晰的改进思路和探索方向。