分享自:

CSWin-MBConv:融合CNN与Transformer的双网络杂草识别方法

期刊:european journal of agronomyDOI:10.1016/j.eja.2025.127528

基于CNN与Transformer双网络融合的杂草识别新方法:CSWin-MBConv

作者与发表信息

本研究由华南农业大学数学与信息学院Jinrong CuiYouliu Zhang,工程学院Hao ChenYaoxuan ZhangHao CaiRuijun Ma(通讯作者),信息网络中心Yu Jiang,以及水利与土木工程学院Long Qi(共同通讯作者)等合作完成,发表于European Journal of Agronomy期刊2025年第164卷。

学术背景

研究领域:本研究属于农业信息技术与计算机视觉交叉领域,聚焦于稻田杂草识别(weed recognition)问题。

研究动机:稻田杂草与水稻竞争水分和养分,且可能传播病害,传统除草剂施用依赖准确的杂草种类识别。现有方法主要基于纯卷积神经网络(CNN)或Transformer架构:CNN擅长提取局部特征(如叶片纹理),但难以捕捉全局表征(如植株空间分布);Transformer能建模长距离特征依赖,但会丢失局部细节。这两种单一架构的局限性导致现有杂草识别模型性能受限。

研究目标:提出一种新型混合网络模型CSWin-MBConv,通过并行融合CNN与Transformer分支,结合局部特征与全局表征,提升杂草识别精度,同时控制计算复杂度。

研究方法与流程

1. 数据集构建

数据采集:2023年3月至4月于中国广东省稻田拍摄,涵盖9种常见杂草(如稗草、空心莲子草等),共2220张图像。采集设备包括iPhone 1114 Pro等,覆盖不同时段、天气和拍摄角度以增强数据多样性。

数据划分:按6:2:2比例分为训练集、验证集和测试集(详见表1)。预处理包括随机裁剪至224×224像素,并进行水平/垂直翻转数据增强。

2. CSWin-MBConv模型设计

整体架构(图3):
- CNN分支:基于轻量级MBConv模块(图4a)堆叠,包含倒残差结构和通道注意力机制(SE模块,图4b),分4个阶段提取局部特征。
- Transformer分支:采用CSWin Transformer(图5),通过十字形窗口自注意力机制捕获全局表征,并引入局部增强位置编码(LEPE)保留细节。
- 特征融合模块(CFFM,图6):基于CBAM注意力机制(图7),通过通道与空间注意力加权融合双分支特征。

创新方法
- MBConv模块:通过1×1卷积扩展通道数→深度卷积→1×1卷积降维,结合SE注意力动态校准通道权重,平衡计算效率与特征表达能力。
- CSWin Transformer:采用分层十字形窗口自注意力,浅层用窄窗口、深层用宽窗口,实现全局关联与局部位置信息融合。

3. 实验设置

训练参数:AdamW优化器(权重衰减0.05)、初始学习率0.0001、批量24、150轮次,5折交叉验证。
评估指标:FLOPs、参数量(Params)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数。

主要结果

1. 性能对比(表3)

在自建杂草数据集上,CSWin-MBConv以98.50%准确率98.56% F1分数显著优于纯CNN(如EfficientNet-B6)和纯Transformer模型(如Swin-S),且参数量(39M)与计算量(7.7G FLOPs)可控。

2. 消融实验(表5)

  • 单独Transformer分支:准确率93.46%。
  • 加入CNN分支:准确率提升至97.81%,收敛速度加快(图11)。
  • 引入CFFM:准确率进一步提升至98.50%,Grad-CAM可视化(图12)显示模型能同时聚焦局部纹理与全局分布。

3. 跨数据集验证(表4)

在公开植物幼苗数据集(Giselsson et al., 2017)上,CSWin-MBConv仍以97.07%准确率领先,证明其泛化能力。

结论与价值

科学价值
1. 方法论创新:首次将MBConv与CSWin Transformer并行融合,通过CFFM实现局部-全局特征互补,为混合架构设计提供新思路。
2. 性能突破:在参数量相近情况下,准确率比纯CNN/Transformer模型最高提升5.41%,解决了单一架构的固有缺陷。

应用价值
- 为稻田精准除草提供高精度识别工具,可优化除草剂选择,减少环境危害。
- 轻量化设计(如MBConv)便于部署至移动设备,适合田间实时监测。

研究亮点

  1. 双分支协同:CNN分支专注叶片纹理等局部特征,Transformer分支建模植株空间分布,CFFM动态融合两类特征。
  2. 高效注意力机制:SE模块(CNN分支)与CBAM(CFFM)结合,显著提升关键特征利用率。
  3. 可扩展性:通过调整MBConv与CSWin Transformer的堆叠层数(表6),可平衡性能与计算成本。

局限与展望

当前模型在极端遮挡或光照条件下性能待验证,未来拟通过多模态感知(如结合近红外数据)和轻量化改进提升鲁棒性。

(注:文中图表及参考文献索引均与原文档一致,此处从略。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com