本研究由华南农业大学数学与信息学院Jinrong Cui、Youliu Zhang,工程学院Hao Chen、Yaoxuan Zhang、Hao Cai、Ruijun Ma(通讯作者),信息网络中心Yu Jiang,以及水利与土木工程学院Long Qi(共同通讯作者)等合作完成,发表于European Journal of Agronomy期刊2025年第164卷。
研究领域:本研究属于农业信息技术与计算机视觉交叉领域,聚焦于稻田杂草识别(weed recognition)问题。
研究动机:稻田杂草与水稻竞争水分和养分,且可能传播病害,传统除草剂施用依赖准确的杂草种类识别。现有方法主要基于纯卷积神经网络(CNN)或Transformer架构:CNN擅长提取局部特征(如叶片纹理),但难以捕捉全局表征(如植株空间分布);Transformer能建模长距离特征依赖,但会丢失局部细节。这两种单一架构的局限性导致现有杂草识别模型性能受限。
研究目标:提出一种新型混合网络模型CSWin-MBConv,通过并行融合CNN与Transformer分支,结合局部特征与全局表征,提升杂草识别精度,同时控制计算复杂度。
数据采集:2023年3月至4月于中国广东省稻田拍摄,涵盖9种常见杂草(如稗草、空心莲子草等),共2220张图像。采集设备包括iPhone 11⁄14 Pro等,覆盖不同时段、天气和拍摄角度以增强数据多样性。
数据划分:按6:2:2比例分为训练集、验证集和测试集(详见表1)。预处理包括随机裁剪至224×224像素,并进行水平/垂直翻转数据增强。
整体架构(图3):
- CNN分支:基于轻量级MBConv模块(图4a)堆叠,包含倒残差结构和通道注意力机制(SE模块,图4b),分4个阶段提取局部特征。
- Transformer分支:采用CSWin Transformer(图5),通过十字形窗口自注意力机制捕获全局表征,并引入局部增强位置编码(LEPE)保留细节。
- 特征融合模块(CFFM,图6):基于CBAM注意力机制(图7),通过通道与空间注意力加权融合双分支特征。
创新方法:
- MBConv模块:通过1×1卷积扩展通道数→深度卷积→1×1卷积降维,结合SE注意力动态校准通道权重,平衡计算效率与特征表达能力。
- CSWin Transformer:采用分层十字形窗口自注意力,浅层用窄窗口、深层用宽窗口,实现全局关联与局部位置信息融合。
训练参数:AdamW优化器(权重衰减0.05)、初始学习率0.0001、批量24、150轮次,5折交叉验证。
评估指标:FLOPs、参数量(Params)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数。
在自建杂草数据集上,CSWin-MBConv以98.50%准确率和98.56% F1分数显著优于纯CNN(如EfficientNet-B6)和纯Transformer模型(如Swin-S),且参数量(39M)与计算量(7.7G FLOPs)可控。
在公开植物幼苗数据集(Giselsson et al., 2017)上,CSWin-MBConv仍以97.07%准确率领先,证明其泛化能力。
科学价值:
1. 方法论创新:首次将MBConv与CSWin Transformer并行融合,通过CFFM实现局部-全局特征互补,为混合架构设计提供新思路。
2. 性能突破:在参数量相近情况下,准确率比纯CNN/Transformer模型最高提升5.41%,解决了单一架构的固有缺陷。
应用价值:
- 为稻田精准除草提供高精度识别工具,可优化除草剂选择,减少环境危害。
- 轻量化设计(如MBConv)便于部署至移动设备,适合田间实时监测。
当前模型在极端遮挡或光照条件下性能待验证,未来拟通过多模态感知(如结合近红外数据)和轻量化改进提升鲁棒性。
(注:文中图表及参考文献索引均与原文档一致,此处从略。)