CSWin-MBConv：融合CNN与Transformer的双网络杂草识别方法

分享自：
CSWin-MBConv：融合CNN与Transformer的双网络杂草识别方法

农业
农学
人工智能
信息科学
计算机科学
期刊:european journal of agronomyDOI:10.1016/j.eja.2025.127528
【点击此处】阅读全文、收藏及针对性提问
基于CNN与Transformer双网络融合的杂草识别新方法：CSWin-MBConv作者与发表信息本研究由华南农业大学数学与信息学院Jinrong Cui、Youliu Zhang，工程学院Hao Chen、Yaoxuan Zhang、Hao Cai、Ruijun Ma（通讯作者），信息网络中心Yu Jiang，以及水利与土木工程学院Long Qi（共同通讯作者）等合作完成，发表于European Journal of Agronomy期刊2025年第164卷。
学术背景研究领域：本研究属于农业信息技术与计算机视觉交叉领域，聚焦于稻田杂草识别（weed recognition）问题。
研究动机：稻田杂草与水稻竞争水分和养分，且可能传播病害，传统除草剂施用依赖准确的杂草种类识别。现有方法主要基于纯卷积神经网络（CNN）或Transformer架构：CNN擅长提取局部特征（如叶片纹理），但难以捕捉全局表征（如植株空间分布）；Transformer能建模长距离特征依赖，但会丢失局部细节。这两种单一架构的局限性导致现有杂草识别模型性能受限。
研究目标：提出一种新型混合网络模型CSWin-MBConv，通过并行融合CNN与Transformer分支，结合局部特征与全局表征，提升杂草识别精度，同时控制计算复杂度。
研究方法与流程1. 数据集构建数据采集：2023年3月至4月于中国广东省稻田拍摄，涵盖9种常见杂草（如稗草、空心莲子草等），共2220张图像。采集设备包括iPhone 11⁄14 Pro等，覆盖不同时段、天气和拍摄角度以增强数据多样性。
数据划分：按6:2:2比例分为训练集、验证集和测试集（详见表1）。预处理包括随机裁剪至224×224像素，并进行水平/垂直翻转数据增强。
2. CSWin-MBConv模型设计整体架构（图3）：
 - CNN分支：基于轻量级MBConv模块（图4a）堆叠，包含倒残差结构和通道注意力机制（SE模块，图4b），分4个阶段提取局部特征。
 - Transformer分支：采用CSWin Transformer（图5），通过十字形窗口自注意力机制捕获全局表征，并引入局部增强位置编码（LEPE）保留细节。
 - 特征融合模块（CFFM，图6）：基于CBAM注意力机制（图7），通过通道与空间注意力加权融合双分支特征。
创新方法：
 - MBConv模块：通过1×1卷积扩展通道数→深度卷积→1×1卷积降维，结合SE注意力动态校准通道权重，平衡计算效率与特征表达能力。
 - CSWin Transformer：采用分层十字形窗口自注意力，浅层用窄窗口、深层用宽窗口，实现全局关联与局部位置信息融合。
3. 实验设置训练参数：AdamW优化器（权重衰减0.05）、初始学习率0.0001、批量24、150轮次，5折交叉验证。
 评估指标：FLOPs、参数量（Params）、准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数。
主要结果1. 性能对比（表3）在自建杂草数据集上，CSWin-MBConv以98.50%准确率和98.56% F1分数显著优于纯CNN（如EfficientNet-B6）和纯Transformer模型（如Swin-S），且参数量（39M）与计算量（7.7G FLOPs）可控。
2. 消融实验（表5）单独Transformer分支：准确率93.46%。
 
加入CNN分支：准确率提升至97.81%，收敛速度加快（图11）。
 
引入CFFM：准确率进一步提升至98.50%，Grad-CAM可视化（图12）显示模型能同时聚焦局部纹理与全局分布。
 
3. 跨数据集验证（表4）在公开植物幼苗数据集（Giselsson et al., 2017）上，CSWin-MBConv仍以97.07%准确率领先，证明其泛化能力。
结论与价值科学价值：
 1. 方法论创新：首次将MBConv与CSWin Transformer并行融合，通过CFFM实现局部-全局特征互补，为混合架构设计提供新思路。
 2. 性能突破：在参数量相近情况下，准确率比纯CNN/Transformer模型最高提升5.41%，解决了单一架构的固有缺陷。
应用价值：
 - 为稻田精准除草提供高精度识别工具，可优化除草剂选择，减少环境危害。
 - 轻量化设计（如MBConv）便于部署至移动设备，适合田间实时监测。
研究亮点双分支协同：CNN分支专注叶片纹理等局部特征，Transformer分支建模植株空间分布，CFFM动态融合两类特征。
 
高效注意力机制：SE模块（CNN分支）与CBAM（CFFM）结合，显著提升关键特征利用率。
 
可扩展性：通过调整MBConv与CSWin Transformer的堆叠层数（表6），可平衡性能与计算成本。
 
局限与展望当前模型在极端遮挡或光照条件下性能待验证，未来拟通过多模态感知（如结合近红外数据）和轻量化改进提升鲁棒性。
（注：文中图表及参考文献索引均与原文档一致，此处从略。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问