本文档属于类型a:一份报告了单次原创性研究的学术论文。以下是根据要求生成的学术报告。
一、 研究团队与发表信息
本研究报告了一项由胡根生、魏子敬和姜永成(通讯作者)等研究者完成的科研成果。研究团队主要来自安徽大学,具体机构包括国家农业生态大数据分析与应用技术工程研究中心、电子信息工程学院以及电气工程与自动化学院。该研究以论文形式发表在国际期刊《Computers and Electronics in Agriculture》上,发表时间为2025年,卷期号为第237卷,文章编号为110763。
二、 学术研究背景
本研究隶属于人工智能与精准农业交叉领域,具体聚焦于基于深度学习的植物病害检测技术。茶是全球广受欢迎的健康饮品,但其生长过程中易受病虫害侵袭。其中,茶叶枯病(Tea Leaf Blight, TLB)在中国茶园中分布广泛,严重威胁茶叶产量与品质。TLB病斑在不同时期(早期、中期和晚期)的颜色和形状差异巨大:早期呈现黄色病斑,中后期则转为白色病斑,且叶片会卷曲枯萎。因此,准确识别不同阶段的TLB对于实施及时、精准的病害防治至关重要。
然而,在复杂的实际农业生产环境中(如叶片重叠、光照不均、背景杂乱),现有检测方法面临巨大挑战。早期黄色病斑易与茶树枝条、土壤及落叶混淆;中后期的白色病斑则容易与强光下的正常叶片光斑混淆,且因叶片卷曲导致病斑边缘模糊、遮挡和重叠。这些因素使得仅依赖传统空域(即RGB图像的颜色、形状)信息的单分支检测模型(如YOLO系列)准确率不高。已有研究表明,频域信息能有效捕捉图像的纹理细节,弥补卷积神经网络下采样过程中丢失的信息。同时,结合空域和频域信息的双分支网络架构在复杂背景下的目标识别中展现出潜力,但此类网络层数加深常导致反向传播(Back Propagation, BP)过程中梯度信息大量丢失,影响模型收敛速度和精度。
基于上述背景,本研究旨在设计一个新颖的双分支网络,旨在通过有效融合空域与频域信息,实现对不同时期TLB病斑的精准检测与分类,克服复杂环境的干扰,并解决深度双分支网络中的梯度信息损失问题。
三、 详细研究流程
本研究流程系统且严谨,主要包括数据采集与预处理、网络模型设计与实现、实验训练与验证以及鲁棒性分析四大环节。
1. 数据采集与预处理 研究数据采集自中国安徽省芜湖市的天井山茶园,分别于2021年10月、2023年11月、2023年12月和2024年12月进行。采集设备包括佳能EOS 80D手持相机和大疆Mavic 3 Pro无人机(搭载4800万像素长焦相机)。手持相机采集的168张高分辨率图像(3200×2560)经滑动窗口裁剪和筛选后,得到541张包含不同时期TLB的640×640图像,并按照8:1:1的比例划分为训练集、验证集和测试集。无人机在4米高度飞行采集的75张图像(8000×6000)经类似处理后,得到467张640×640图像,专门用于后续模型鲁棒性分析的测试集。
针对自然光照不均的问题,研究采用多尺度视网膜(Multiscale Retinex, MSR)算法进行图像预处理。通过设计不同的增益因子α和偏移量β,生成低光照和高光照图像,以增强模型对不同光照条件的适应性。同时,还应用了垂直翻转和水平翻转来增强模型对方向的鲁棒性。经过预处理后,训练集图像数量从432张扩充至1728张(见表1),有效提升了模型的泛化能力。
2. 网络模型设计与实现 本研究提出的核心模型为双分支TLB检测网络(Dual-branch TLB Detection Network, DBTDNet)。其整体结构包含空域特征提取(Spatial Feature Extraction, SFE)分支、频域特征提取(Frequency Feature Extraction, FFE)分支、多维神经网络(Multidimensional Neural Network, MNNet)特征融合结构以及检测头(Detector Head)。
3. 实验训练与评估 实验在Ubuntu系统下使用PyTorch框架进行,采用随机梯度下降(SGD)优化器,训练200个周期。评估指标包括精确率(Precision)、召回率(Recall)和平均精度均值(mAP@0.5)。研究进行了广泛的对比实验,将DBTDNet与YOLOv5/v8/v9/v10/v11、Faster R-CNN、Swin-Transformer、SSD以及专门针对TLB的DDMA-YOLO、SDDA-YOLO和LWDNet等先进模型进行了性能比较。此外,还进行了一系列消融实验,以验证SFE分支、FFE分支、MSWTC模块、线性层、不同损失函数(DIoU, CIoU, SIoU)以及不同特征融合结构(MNNet vs. PANet)各自的作用和贡献。最后,还评估了图像预处理对模型性能的影响。
4. 鲁棒性分析 为了验证模型在其他场景下的泛化能力,研究使用在2023年和2024年由无人机在4米高度采集的独立测试集(未参与训练)对训练好的DBTDNet模型进行了测试,以分析其鲁棒性。
四、 主要研究结果
实验结果有力地证明了DBTDNet模型的优越性和各组成部分的有效性。
1. 与先进模型的对比结果 如表2所示,DBTDNet在检测不同时期TLB任务上全面超越了对比模型。对于早期黄色TLB病斑,其mAP@0.5达到74.5%;对于中后期白色TLB病斑,mAP@0.5达到75.3%;总体mAP@0.5达到75%。相较于基线模型YOLOv9,这三项指标分别提高了13.2%、7.5%和10.5%。总体检测精确率和召回率也分别提升了18.1%和7.3%。尽管DBTDNet的参数量(40.1 MB)和模型大小相对较大,但其在检测精度上表现出显著优势。图12的检测示例和图13的混淆矩阵直观显示,传统YOLO网络和Faster R-CNN等在复杂背景下对黄色病斑存在大量误检和漏检,而DBTDNet通过融合空频域信息,能更准确地区分病斑与背景干扰(如树枝、阴影),并正确分类。
2. 消融实验结果 * 分支有效性:单独使用SFE分支对白色病斑检测较好(mAP 71.4%),但对黄色病斑和小目标检测能力较弱;单独使用FFE分支对黄色病斑检测更有效(mAP 68.5%),但无法区分光照反射造成的干扰。两者结合后,性能获得大幅提升(总体mAP 75%),验证了双分支融合的必要性(表3,图14)。 * MSWTC模块的作用:引入MSWTC模块后,模型对黄色TLB病斑的检测能力(mAP)从69%提升至74.5%(表4)。Grad-CAM可视化结果(图15)清晰表明,加入MSWTC模块后,模型的注意力更集中于病斑本身,减少了对背景干扰的关注,说明高质量的频域特征提取有效增强了对复杂背景的抵抗能力。 * 线性层的作用:加入线性层后,训练损失曲线收敛更快且稳定在更低的阈值(图16),总体检测mAP@0.5从68.5%提升至75%(表5)。这证实了线性层能有效减少BP过程中的梯度信息损失,促进双分支间的信息交互,从而提升模型性能。 * 损失函数对比:使用DIoU损失函数的模型收敛速度最快(图17),且获得了最高的检测mAP(75%),优于CIoU(70.1%)和SIoU(70.2%)。说明DIoU在应对形状多变、背景复杂的TLB检测任务时更具优势。 * 特征融合结构对比:与传统的PANet相比,本研究设计的MNNet结构在检测黄色TLB病斑的精确率、召回率和mAP上分别提升了3.8%、7.8%和10.8%(表7)。特征图可视化(图18)显示,MNNet能更有效地聚焦于病斑区域。 * 图像预处理效果:采用MSR算法进行光照预处理和翻转增强后,模型对黄色、白色及总体TLB病斑的检测mAP@0.5分别提升了7%、2.3%和5.2%(表8,图19),显著增强了模型对不同光照和方向的鲁棒性。
3. 鲁棒性分析结果 在独立的无人机图像测试集上,DBTDNet模型依然表现良好,总体TLB病斑检测mAP@0.5达到70.1%(表9,图20)。这表明该模型具有良好的泛化能力和实际应用潜力,能够适应不同的数据采集场景(手持设备与无人机遥感)。
五、 研究结论与价值
本研究成功设计并验证了一种集成空域与频域信息的双分支网络DBTDNet,用于精准检测不同时期的茶叶枯病。该网络通过SFE分支和FFE分支分别提取高质量的空间和频率特征,利用MSWTC模块增强频域信息分离能力,引入线性层缓解梯度消失问题,并采用专为双分支设计的MNNet结构进行有效特征融合。结合MSR图像预处理和DIoU损失函数,模型在复杂背景下对TLB病斑的检测精度、召回率和mAP均得到显著提升。
研究的科学价值在于:1)为复杂农业环境下的植物病害检测提供了一个新颖有效的多模态(空域+频域)特征融合框架;2)针对双分支深度网络提出了通过添加线性层来保留梯度信息、加速收敛的解决方案;3)设计了MSWTC和WBFE等模块,深化了小波变换在深度学习视觉任务中的应用。其应用价值显著:所提方法能够更准确地识别茶树病害的早期迹象,为茶园精准施药、病害预警和减少经济损失提供了有力的技术工具,有助于推动智慧农业的发展。
六、 研究亮点
七、 其他有价值内容
研究在讨论部分也坦诚指出了当前方法的局限性及未来方向:1)对于隐藏在复杂背景中、位于叶片边缘的极小TLB病斑,仍存在漏检问题(图21),小目标检测是未来难点;2)模型尚未能应对雾、大雨等极端天气条件;3)模型参数量和体积较大,在实际部署(特别是无人机边缘设备)时可能占用较多计算资源,设计更轻量化的模型是未来的有趣课题。这些思考为后续研究指明了有价值的改进方向。