本研究由黑龙江八一农垦大学信息与电气工程学院的Dongfeng Yang(通讯作者)与工程学院的Jun Hu合作完成,发表于2025年的《Expert Systems with Applications》期刊(288卷,文章编号128265)。该研究聚焦农业质量评估领域,针对传统玉米品种鉴定方法效率低、样本量需求大等问题,提出了一种结合近红外光谱(Near-Infrared Spectroscopy, NIR)特征选择与改进堆叠稀疏自编码器(Improved Stacked Sparse Autoencoder, ISSAE)的小样本分类模型,为农作物品种快速无损检测提供了新思路。
学术背景
玉米作为全球主要粮食作物,其种子质量直接影响农业生产。传统鉴定方法(如形态学分析、DNA分子标记)存在主观性强、耗时长等缺陷。近红外光谱技术凭借快速、无损、无需预处理等优势,在农业领域展现出潜力。然而,深度学习模型通常需要大量训练样本,而NIR样本采集受限于实验材料制备成本。为此,本研究旨在开发适用于小样本NIR数据的分类模型,通过融合特征波长选择与深度学习方法,实现玉米品种的高精度识别。
研究流程
1. 数据采集与预处理
- 样本:收集13个玉米品种共276份种子样本(如表1所示),使用德国Bruker Tango NIR光谱仪采集11,550–3,950 cm⁻¹范围内的光谱数据(分辨率8 cm⁻¹,每样本1,845个数据点)。
- 预处理:对比Savitzky-Golay平滑(SG)、高斯滤波(GS)、标准正态变量变换(SNV)等方法的降噪效果,最终确定GS-MSC(高斯滤波结合多元散射校正)为最优预处理组合,支持向量机(SVM)验证其分类准确率达91.7%。
2. 特征波长选择
- 改进的逆向间隔偏最小二乘法(IBIPLS):
- 将全光谱划分为10–100个等宽区间,通过交叉验证筛选最优区间数(n=70),保留789个特征波长(占原始变量的42.7%)。
- 与传统竞争性自适应重加权采样(CARS)相比,IBIPLS在保留功能组(如C-H、O-H、N-H)相关波段方面更具优势,PLS模型相关系数达0.9589,交叉验证均方根误差(RMSEcv)为1.1097。
3. ISSAE模型构建与优化
- 网络结构:采用两隐藏层设计,通过贪婪逐层训练与监督微调结合的策略:
- 稀疏约束:引入KL散度惩罚项(稀疏参数ρ=0.1),限制神经元平均激活率。
- 损失函数:融合重构误差与交叉熵损失(公式10),提升分类性能。
- 参数优化:测试不同隐藏层节点数(20–200)与ρ值(0.001–1),确定最优配置为130个节点,测试集准确率达98.91%。
4. 模型对比与验证
- 对比模型:包括K最近邻(KNN)、SVM、BP神经网络及一维卷积神经网络(1D-CNN)。
- 性能指标:IBIPLS-ISSAE-2的加权平均准确率(98.91%)、精确率(98.91%)、召回率(99.07%)均显著优于其他模型(如IBIPLS-BP准确率94.57%)。
- 统计检验:McNemar检验与配对t-test证实IBIPLS-ISSAE-2的分类性能显著提升(p<0.05),且置信区间更窄(95% CI: 95.09%–98.39%)。
主要结果与逻辑关联
- 特征选择有效性:IBIPLS筛选的789个波长中,80%位于功能组特征峰范围内(如5,062.57 cm⁻¹对应O-H组合频),Shapley值分析显示前20重要波长中8个与N-H/O-H相关,验证了化学组分的 discriminative 贡献。
- 小样本适应性:ISSAE通过半监督学习缓解梯度消失问题,两隐藏层结构在样本量不足时表现优于三层网络(准确率差距达16.3%)。
- 泛化性能:模型对类别不平衡数据(如品种1和10样本量较大)仍保持高召回率,仅1例误分类(品种8→6)。
结论与价值
- 科学价值:
- 提出IBIPLS-ISSAE框架,为小样本NIR分类问题提供方法论创新。
- 揭示玉米种子光谱特征与化学组分的映射关系,深化农业光谱分析理论。
- 应用价值:
- 实现玉米品种98.91%的准确识别,耗时仅17.4秒/样本,适用于现场快速检测。
- 为其他农作物(如小麦、大豆)的品质监测提供可扩展模型。
研究亮点
- 方法创新:
- IBIPLS通过动态调整光谱分段数(n)与评估指标E=r/RMSEcv,优化特征选择效率。
- ISSAE首次在NIR分析中融合KL稀疏约束与交叉熵监督,提升小样本下的特征抽象能力。
- 技术突破:
- 模型复杂度(1.73×10⁶参数)与预测速度(620样本/秒)的平衡,优于传统BP神经网络。
- 跨学科融合:结合化学计量学(PLS)、深度学习(自编码器)与农业科学,推动智能农业装备研发。
其他价值
- 数据可用性:研究数据可通过请求获取,支持后续算法优化。
- 局限性:ISSAE参数调优依赖网格搜索,未来可引入元学习(Meta-Learning)进一步提升效率。
本研究通过多学科交叉创新,为农业质量评估的智能化转型提供了关键技术支撑,其方法论框架亦可迁移至食品、药品等领域的快速检测场景。