基于空间与频率域信息双分支网络的茶叶不同阶段病害斑检测

分享自：
基于空间与频率域信息双分支网络的茶叶不同阶段病害斑检测

信息科学
农业
农学
人工智能
计算机科学
期刊:Computers and Electronics in AgricultureDOI:10.1016/j.compag.2025.110763
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a：一份报告了单次原创性研究的学术论文。以下是根据要求生成的学术报告。
关于集成空域与频域信息用于不同时期茶树叶枯病检测的双分支网络的研究报告一、 研究团队与发表信息
本研究报告了一项由胡根生、魏子敬和姜永成（通讯作者）等研究者完成的科研成果。研究团队主要来自安徽大学，具体机构包括国家农业生态大数据分析与应用技术工程研究中心、电子信息工程学院以及电气工程与自动化学院。该研究以论文形式发表在国际期刊《Computers and Electronics in Agriculture》上，发表时间为2025年，卷期号为第237卷，文章编号为110763。
二、 学术研究背景
本研究隶属于人工智能与精准农业交叉领域，具体聚焦于基于深度学习的植物病害检测技术。茶是全球广受欢迎的健康饮品，但其生长过程中易受病虫害侵袭。其中，茶叶枯病（Tea Leaf Blight, TLB）在中国茶园中分布广泛，严重威胁茶叶产量与品质。TLB病斑在不同时期（早期、中期和晚期）的颜色和形状差异巨大：早期呈现黄色病斑，中后期则转为白色病斑，且叶片会卷曲枯萎。因此，准确识别不同阶段的TLB对于实施及时、精准的病害防治至关重要。
然而，在复杂的实际农业生产环境中（如叶片重叠、光照不均、背景杂乱），现有检测方法面临巨大挑战。早期黄色病斑易与茶树枝条、土壤及落叶混淆；中后期的白色病斑则容易与强光下的正常叶片光斑混淆，且因叶片卷曲导致病斑边缘模糊、遮挡和重叠。这些因素使得仅依赖传统空域（即RGB图像的颜色、形状）信息的单分支检测模型（如YOLO系列）准确率不高。已有研究表明，频域信息能有效捕捉图像的纹理细节，弥补卷积神经网络下采样过程中丢失的信息。同时，结合空域和频域信息的双分支网络架构在复杂背景下的目标识别中展现出潜力，但此类网络层数加深常导致反向传播（Back Propagation, BP）过程中梯度信息大量丢失，影响模型收敛速度和精度。
基于上述背景，本研究旨在设计一个新颖的双分支网络，旨在通过有效融合空域与频域信息，实现对不同时期TLB病斑的精准检测与分类，克服复杂环境的干扰，并解决深度双分支网络中的梯度信息损失问题。
三、 详细研究流程
本研究流程系统且严谨，主要包括数据采集与预处理、网络模型设计与实现、实验训练与验证以及鲁棒性分析四大环节。
1. 数据采集与预处理 研究数据采集自中国安徽省芜湖市的天井山茶园，分别于2021年10月、2023年11月、2023年12月和2024年12月进行。采集设备包括佳能EOS 80D手持相机和大疆Mavic 3 Pro无人机（搭载4800万像素长焦相机）。手持相机采集的168张高分辨率图像（3200×2560）经滑动窗口裁剪和筛选后，得到541张包含不同时期TLB的640×640图像，并按照8:1:1的比例划分为训练集、验证集和测试集。无人机在4米高度飞行采集的75张图像（8000×6000）经类似处理后，得到467张640×640图像，专门用于后续模型鲁棒性分析的测试集。
针对自然光照不均的问题，研究采用多尺度视网膜（Multiscale Retinex, MSR）算法进行图像预处理。通过设计不同的增益因子α和偏移量β，生成低光照和高光照图像，以增强模型对不同光照条件的适应性。同时，还应用了垂直翻转和水平翻转来增强模型对方向的鲁棒性。经过预处理后，训练集图像数量从432张扩充至1728张（见表1），有效提升了模型的泛化能力。
2. 网络模型设计与实现 本研究提出的核心模型为双分支TLB检测网络（Dual-branch TLB Detection Network, DBTDNet）。其整体结构包含空域特征提取（Spatial Feature Extraction, SFE）分支、频域特征提取（Frequency Feature Extraction, FFE）分支、多维神经网络（Multidimensional Neural Network, MNNet）特征融合结构以及检测头（Detector Head）。
SFE分支：负责提取图像的色彩、形状等全局空间特征，以区分不同时期的TLB。该分支引入了密集深度可分离（Dense Depthwise Separable, DDS）模块。DDS模块采用轻量化的分裂梯度流结构，通过拼接两个分支生成的特征图来获得更丰富的尺度信息，在节省计算量的同时提高检测精度。分支还包括CBS（卷积、批归一化、ReLU激活）层、深度可分离卷积（DWConv）和空间金字塔快速池化（SPPF）层。
FFE分支：负责提取图像的频域信息，以获取清晰的纹理和形状特征，从而在复杂背景下准确定位TLB病斑。该分支的核心创新在于引入了基于小波变换的特征提取（Wavelet-based Feature Extraction, WBFE）瓶颈结构和多尺度小波变换卷积（Multiscale Wavelet Transform Convolution, MSWTC）模块。 WBFE瓶颈：采用残差连接结构，左分支通过卷积层和激活函数增强网络非线性表示，右分支通过小波变换（Wavelet Transform, WT）和逆变换（Inverse Wavelet Transform, IWT）增强频域特征提取，最后融合两路输出。
MSWTC模块：这是一个密集连接结构，对输入图像进行Haar小波变换，分离出多尺度低频和高频信息。在低频子带上，使用不同尺度（3×3, 5×5, 7×7）的卷积核进行处理，再进行逆小波变换。通过在不同尺度的WT和IWT之间添加卷积，该模块获得了更大的感受野，并生成了有效的多频带低频响应，从而分离出更清晰、具体的病斑形状和纹理特征。该分支还包括CBS层、DWConv层和SPPELAN特征聚合模块。
线性层与梯度信息保留：针对双分支网络深度增加导致的梯度消失问题，本研究在双分支结构之间引入了一个线性层。如图6所示，该线性层为梯度信息的反向传播设置了一条更短的路径，使浅层网络能获得更多梯度信息，提高了模型的收敛速度。
MNNet特征融合结构：在颈部网络，本研究设计了MNNet结构来融合双分支输出的多尺度特征图。不同于仅提取单分支信息的PANet结构，MNNet有选择地融合SFE分支的低层特征图（富含全局色彩信息）和FFE分支的高层特征图（富含抽象纹理和形状信息），并通过双向传递确保各层都能获取多尺度信息，从而更好地捕获不同大小的目标。
损失函数：采用DIoU（Distance-IoU）作为边界框回归损失函数。DIoU不仅考虑预测框与真实框的重叠面积，还考虑其中心点距离，即使在无重叠区域时也能指导预测框收敛，在复杂背景下能更直接地引导预测框靠近目标框，避免了因干扰导致的误检和漏检，并加快了收敛速度。
3. 实验训练与评估 实验在Ubuntu系统下使用PyTorch框架进行，采用随机梯度下降（SGD）优化器，训练200个周期。评估指标包括精确率（Precision）、召回率（Recall）和平均精度均值（mAP@0.5）。研究进行了广泛的对比实验，将DBTDNet与YOLOv5/v8/v9/v10/v11、Faster R-CNN、Swin-Transformer、SSD以及专门针对TLB的DDMA-YOLO、SDDA-YOLO和LWDNet等先进模型进行了性能比较。此外，还进行了一系列消融实验，以验证SFE分支、FFE分支、MSWTC模块、线性层、不同损失函数（DIoU, CIoU, SIoU）以及不同特征融合结构（MNNet vs. PANet）各自的作用和贡献。最后，还评估了图像预处理对模型性能的影响。
4. 鲁棒性分析 为了验证模型在其他场景下的泛化能力，研究使用在2023年和2024年由无人机在4米高度采集的独立测试集（未参与训练）对训练好的DBTDNet模型进行了测试，以分析其鲁棒性。
四、 主要研究结果
实验结果有力地证明了DBTDNet模型的优越性和各组成部分的有效性。
1. 与先进模型的对比结果 如表2所示，DBTDNet在检测不同时期TLB任务上全面超越了对比模型。对于早期黄色TLB病斑，其mAP@0.5达到74.5%；对于中后期白色TLB病斑，mAP@0.5达到75.3%；总体mAP@0.5达到75%。相较于基线模型YOLOv9，这三项指标分别提高了13.2%、7.5%和10.5%。总体检测精确率和召回率也分别提升了18.1%和7.3%。尽管DBTDNet的参数量（40.1 MB）和模型大小相对较大，但其在检测精度上表现出显著优势。图12的检测示例和图13的混淆矩阵直观显示，传统YOLO网络和Faster R-CNN等在复杂背景下对黄色病斑存在大量误检和漏检，而DBTDNet通过融合空频域信息，能更准确地区分病斑与背景干扰（如树枝、阴影），并正确分类。
2. 消融实验结果 * 分支有效性：单独使用SFE分支对白色病斑检测较好（mAP 71.4%），但对黄色病斑和小目标检测能力较弱；单独使用FFE分支对黄色病斑检测更有效（mAP 68.5%），但无法区分光照反射造成的干扰。两者结合后，性能获得大幅提升（总体mAP 75%），验证了双分支融合的必要性（表3，图14）。 * MSWTC模块的作用：引入MSWTC模块后，模型对黄色TLB病斑的检测能力（mAP）从69%提升至74.5%（表4）。Grad-CAM可视化结果（图15）清晰表明，加入MSWTC模块后，模型的注意力更集中于病斑本身，减少了对背景干扰的关注，说明高质量的频域特征提取有效增强了对复杂背景的抵抗能力。 * 线性层的作用：加入线性层后，训练损失曲线收敛更快且稳定在更低的阈值（图16），总体检测mAP@0.5从68.5%提升至75%（表5）。这证实了线性层能有效减少BP过程中的梯度信息损失，促进双分支间的信息交互，从而提升模型性能。 * 损失函数对比：使用DIoU损失函数的模型收敛速度最快（图17），且获得了最高的检测mAP（75%），优于CIoU（70.1%）和SIoU（70.2%）。说明DIoU在应对形状多变、背景复杂的TLB检测任务时更具优势。 * 特征融合结构对比：与传统的PANet相比，本研究设计的MNNet结构在检测黄色TLB病斑的精确率、召回率和mAP上分别提升了3.8%、7.8%和10.8%（表7）。特征图可视化（图18）显示，MNNet能更有效地聚焦于病斑区域。 * 图像预处理效果：采用MSR算法进行光照预处理和翻转增强后，模型对黄色、白色及总体TLB病斑的检测mAP@0.5分别提升了7%、2.3%和5.2%（表8，图19），显著增强了模型对不同光照和方向的鲁棒性。
3. 鲁棒性分析结果 在独立的无人机图像测试集上，DBTDNet模型依然表现良好，总体TLB病斑检测mAP@0.5达到70.1%（表9，图20）。这表明该模型具有良好的泛化能力和实际应用潜力，能够适应不同的数据采集场景（手持设备与无人机遥感）。
五、 研究结论与价值
本研究成功设计并验证了一种集成空域与频域信息的双分支网络DBTDNet，用于精准检测不同时期的茶叶枯病。该网络通过SFE分支和FFE分支分别提取高质量的空间和频率特征，利用MSWTC模块增强频域信息分离能力，引入线性层缓解梯度消失问题，并采用专为双分支设计的MNNet结构进行有效特征融合。结合MSR图像预处理和DIoU损失函数，模型在复杂背景下对TLB病斑的检测精度、召回率和mAP均得到显著提升。
研究的科学价值在于：1）为复杂农业环境下的植物病害检测提供了一个新颖有效的多模态（空域+频域）特征融合框架；2）针对双分支深度网络提出了通过添加线性层来保留梯度信息、加速收敛的解决方案；3）设计了MSWTC和WBFE等模块，深化了小波变换在深度学习视觉任务中的应用。其应用价值显著：所提方法能够更准确地识别茶树病害的早期迹象，为茶园精准施药、病害预警和减少经济损失提供了有力的技术工具，有助于推动智慧农业的发展。
六、 研究亮点
问题导向的创新架构：首次针对不同时期茶叶枯病检测这一具体且富挑战性的任务，设计了一个完整的空频域双分支检测网络（DBTDNet），系统性解决了颜色易混淆、纹理模糊等问题。
核心模块的创新：提出了多尺度小波变换卷积（MSWTC）模块，创新地将不同尺度的卷积核嵌入小波变换与逆变换过程中，以提取更清晰的多尺度频域形状与纹理特征。
优化策略的针对性：在双分支网络中巧妙地引入线性层，这是一种简单而有效的策略，专门用于缓解此类架构中因深度增加而加剧的梯度信息流失问题，提升了训练效率。
特征融合的定制化设计：设计了MNNet特征融合结构，它不是简单拼接特征，而是基于对空频域特征特性的分析（低层空域特征色彩丰富，高层频域特征纹理抽象），进行有针对性的选择性融合，提升了多尺度目标检测性能。
全面严谨的验证：研究不仅进行了广泛的横向对比，还通过系统的消融实验逐一验证了每个创新组件的有效性，并结合Grad-CAM可视化等手段进行了机理分析，论证扎实。
七、 其他有价值内容
研究在讨论部分也坦诚指出了当前方法的局限性及未来方向：1）对于隐藏在复杂背景中、位于叶片边缘的极小TLB病斑，仍存在漏检问题（图21），小目标检测是未来难点；2）模型尚未能应对雾、大雨等极端天气条件；3）模型参数量和体积较大，在实际部署（特别是无人机边缘设备）时可能占用较多计算资源，设计更轻量化的模型是未来的有趣课题。这些思考为后续研究指明了有价值的改进方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问