本研究由武汉大学水资源与水电工程科学国家重点实验室的李金敏、陈秀青、杨琦和史良胜(通信作者)团队完成,合作单位包括长江勘测规划设计研究有限责任公司。研究成果以《基于高光谱的水稻叶片氮含量估计的深度森林模型研究》(Deep learning models for estimation of paddy rice leaf nitrogen concentration based on canopy hyperspectral data)为题,于2021年发表在《作物学报》(Acta Agronomica Sinica)第47卷第7期,获得国家自然科学基金项目(51861125202)资助。
氮素是作物生长必需的关键元素,参与蛋白质与核酸合成,但过量施用会导致水体污染和温室气体排放。传统破坏性取样方法效率低下,而高光谱遥感技术因其快速、无损的优势,成为作物氮素监测的重要工具。然而,高光谱数据具有高维度、非线性特征,传统回归方法(如植被指数法、偏最小二乘回归)难以充分挖掘其信息;经典机器学习算法(如随机森林RF、支持向量机SVM)虽有一定效果,但稳定性不足;深度神经网络(DNN)需要大量训练数据,而田间试验获取的叶片氮含量标签成本高昂,样本量通常仅数百个,限制了深度学习的应用。为此,本研究探索在小样本条件下(216组数据),利用深度森林(Deep Forest, DF)算法提升水稻叶片氮含量(Leaf Nitrogen Concentration, LNC)的估算精度。
团队于2018-2019年在湖北省监利县开展连续两年田间试验,设置4个氮素水平(2018年:0、43、86、130 kg hm⁻²;2019年:0、50、100、150 kg hm⁻²),每水平3次重复,共12块试验田。使用地物光谱仪(FieldSpec F, ASD公司)采集水稻全生育期冠层高光谱反射率(350-2500 nm),剔除水分吸收带(1350-1450 nm、1800-2000 nm、2400-2500 nm)后,进行一阶导数预处理。同步测定叶片氮含量(半微量凯氏定氮法),最终获得216组有效数据(建模集162组,预测集54组)。
研究提出深度森林(DF)模型,其核心创新在于多粒度扫描与级联森林结构:
- 多粒度扫描:采用三种滑动窗口(1/4、1/8、1/16特征长度)提取局部特征,通过随机森林基学习器生成增强特征向量。
- 级联森林:逐层训练并拼接特征,通过验证集精度动态终止训练,避免过拟合。
对比模型包括:
- 经典机器学习:随机森林(RF)、支持向量机(SVM)
- 深度学习:多层感知器(MLP)
所有模型基于Python实现,超参数经调优(如DF级联森林数量为10,滑动步长25),以决定系数(R²)和均方根误差(RMSE)评估性能。
本研究首次将深度森林算法应用于田间冠层高光谱的氮素反演,证明其在小样本条件下的优越性:
- 科学价值:揭示了DF通过多粒度扫描实现特征降维与层间信息融合的机制,为高维小样本数据分析提供新思路。
- 应用价值:为农田精准管理中氮素快速监测提供了高精度、低成本的解决方案,尤其适用于数据获取受限的场景。
研究指出,尽管所有模型均存在过拟合(如RF建模集R²c=0.982 vs. 预测集R²p=0.891),但DF通过特征降维显著减轻了这一现象,为小样本高光谱建模提供了实践参考。