基于CNN-Transformer混合网络CMTNet的无人机高光谱农作物分类研究
作者及发表信息
本研究由Xihong Guo(第一作者,单位:Dingxi Sanniu Agricultural Machinery Manufacturing Co., Ltd.)、Quan Feng(通讯作者,单位:Gansu Agricultural University College of Mechanical and Electrical Engineering)和Faxu Guo(Gansu Agricultural University)合作完成,发表于Scientific Reports期刊2025年第15卷。
学术背景
研究领域:精准农业中的高光谱图像分类。
研究动机:无人机高光谱成像(Hyperspectral Imaging, HSI)可提供丰富的空间-光谱信息,但传统方法在复杂农业环境中难以同时捕捉局部和全局特征,且存在数据分布不平衡问题。
科学问题:
1. 传统CNN模型受限于局部感受野,难以建模长距离光谱依赖关系;
2. Transformer虽能捕获全局特征,但对局部空间细节敏感度不足;
3. 现有混合架构多采用串行特征融合策略,缺乏动态交互机制。
研究目标:提出CMTNet(Convolutional Meets Transformer Network),通过并行双分支结构和多输出约束模块,实现高精度农作物分类。
研究方法与流程
1. 光谱-空间特征提取模块
- 输入处理:将高光谱数据块(尺寸13×13×D,D为光谱波段数)输入3D卷积层,通过式(1)计算空间-光谱联合特征:
[ v{i,j}^{p,q,u} = \sum{\eta} \sum{h,w,c} \omega{i,j,\eta}^{h,w,c} \cdot v{i-1,\eta}^{(p+h),(q+w),(u+c)} + b{i,j} ]
随后通过2D卷积(式2)提取浅层空间特征,结合批归一化和ReLU激活函数(式3-4)。
- 创新点:首次在浅层网络同时提取光谱-空间三维特征,避免传统方法中串行处理的信息损失。
2. 局部-全局特征并行提取模块
(1)Transformer分支
- 位置编码:将特征序列嵌入相对位置信息(式5),通过多头自注意力(MHSA,图3a)计算全局关系:
[ \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V ]
- 特性:动态建模全波段光谱依赖关系,显著提升相似作物的区分能力。
(2)CNN分支
- 结构:包含3×3卷积和1×1卷积残差块,专注提取局部纹理和形态特征。
- 协同机制:双分支输出通过特征级联实现互补,而非简单的决策级融合。
3. 多输出约束模块(MOCM)
- 三级约束:对局部特征((f_l))、全局特征((f_g))和融合特征((f_i))分别计算交叉熵损失(式7-9),加权总损失(式10):
[ L_t = \lambda_1 L_l + \lambda_2 L_g + \lambda_3 L_i \quad (\lambda_1+\lambda_2+\lambda_3=1) ]
- 优势:通过梯度反向传播优化各层次特征权重,解决小样本类别过拟合问题。
实验设计
- 数据集:WHU-HI系列(Longkou、Hanchuan、Honghu),包含9-22类农作物,训练样本占比0.5%。
- 对比方法:RF、SVM、2D-CNN、3D-CNN、ResNet、ViT、SSFTT、CTMixer等8种基线模型。
- 参数优化:通过网格搜索确定输入块尺寸(13×13)、学习率(1e-3)、批大小(100)、Transformer层数(1层)和注意力头数(4头)。
主要结果
分类性能
- 定量结果:
- Longkou数据集:OA 99.58%(比CTMixer提升0.19%),窄叶大豆分类精度98.61%;
- Hanchuan数据集:OA 97.29%(提升1.75%),阴影区域误分类率降低12%;
- Honghu数据集:OA 98.31%(提升2.52%),油菜(rape)分类精度达98.98%。
- 可视化分析:CMTNet显著减少传统方法中的”椒盐噪声”和分类碎片化现象(图9-11)。
消融实验
- 模块贡献度(表5):
- 仅Transformer分支:OA 91.53%-94.97%;
- 加入CNN分支后:OA提升至97.29%-99.58%;
- MOCM模块带来1.2%-2.6%的精度增益。
计算效率
- 耗时对比(表6):
- CMTNet训练时间931-1885秒,显著优于CTMixer(1149-2327秒);
- 推理速度达15 FPS,满足无人机实时处理需求。
结论与价值
科学价值:
1. 提出首个面向高光谱农业分类的并行双分支混合架构,突破传统串行设计的局限性;
2. 多输出约束模块为多尺度特征融合提供可解释的优化路径。
应用价值:
- 在作物健康监测、产量估算等精准农业场景中,分类错误率降低至1.5%以下;
- 模型已部署于甘肃省农田监测系统,支持大豆-玉米带状复合种植的精细化管理。
研究亮点
- 架构创新:CNN-Transformer并行分支实现局部-全局特征动态交互,较CTMixer的串行设计OA提升0.19%-2.52%;
- 小样本优化:针对窄叶大豆(20个训练样本)等稀有类别,通过MOCM约束将分类精度提升至98.61%;
- 工程兼容性:支持低空无人机(0.043-0.463m分辨率)和机载嵌入式设备部署。
局限性与展望
- 阴影区域分类仍受光照条件影响,未来拟融合LiDAR高程数据;
- 计算成本较高,计划采用知识蒸馏技术压缩模型;
- 将扩展至多时相作物生长监测任务。
本研究代码与数据集已开源(WHU-HI repository),为高光谱农业分析提供了新的方法论工具。