基于近端高光谱数据和机器学习与可解释人工智能方法估算小麦氮含量
本研究报告了一项名为《Estimation of Nitrogen Content in Wheat from Proximal Hyperspectral Data Using Machine Learning and Explainable Artificial Intelligence (XAI) Approach》的原创性研究。该研究由 Harpinder Singh(第一作者,来自印度旁遮普邦的Punjab Remote Sensing Centre)、Ajay Roy、R. K. Setia 和 Brijendra Pateriya 共同完成。研究成果于2022年发表于《Modeling Earth Systems and Environment》期刊的第8卷。该研究属于精准农业、遥感技术与人工智能交叉领域的前沿应用。
氮是植物结构(如叶绿素、氨基酸)和代谢过程(如光合作用)中不可或缺的主要常量营养素。氮的缺乏会导致严重的植物生长障碍,而过度施用则会污染地下水。因此,对作物氮营养状况进行精准、高效的监测和管理,对于提高氮肥利用效率、保证产量和环境可持续性至关重要。
传统的植物组织氮含量测定方法(如凯氏定氮法和杜马斯燃烧法)是侵入性的,耗时、昂贵且无法进行大范围快速监测。相比之下,遥感技术,特别是高光谱遥感,提供了一种非侵入式、快速评估植物养分胁迫的潜力。近端高光谱传感器能够捕获精细的光谱信息,这些信息与作物的生理参数(如氮含量)密切相关。机器学习方法在处理高光谱数据、建模预测方面展现出超越传统统计方法的优势,但通常被视为“黑箱”,其决策过程难以解释。
在此背景下,本研究旨在: 1. 评估不同光谱预处理技术对机器学习回归模型预测小麦氮含量性能的影响。 2. 利用多种机器学习算法构建小麦氮含量预测模型,并识别最优模型组合。 3. 应用可解释人工智能工具,解释最优模型的决策机制,并识别与小麦氮含量相关的关键光谱波长,尤其是在不同生长阶段的特异性。
本研究的数据分析流程清晰,主要包含以下几个核心步骤:
步骤一:数据获取与预处理 * 研究对象与数据来源:研究使用了2004年和2005年在以色列Gilat农业研究中心采集的小麦近端冠层高光谱数据。数据采集自小麦生长的四个关键阶段:播种后第6天、第45天、第63-72天以及第91-97天。光谱数据使用ASD FieldSpec Bare Fiber光谱辐射计采集,范围覆盖400-2400纳米,采样分辨率为2纳米,共330个波段。同时,同步采集了植物样本,并在实验室测定其氮含量,作为模型预测的目标变量(Y变量)。 * 光谱预处理技术:为了消除噪声、基线偏移并增强光谱特征,研究者生成了四个输入数据集: 1. 原始光谱:未经任何处理。 2. 一阶导数数据集:应用Savitzky-Golay一阶导数变换,有助于消除背景噪声和基线漂移,突出光谱变化细节。 3. 降分辨率数据集:使用三角形核滤波器对光谱进行平滑处理,模拟低分辨率仪器采集的效果,用于噪声抑制。 4. 降分辨率+一阶导数数据集:综合应用上述两种预处理方法。
步骤二:机器学习模型构建与训练 * 模型与算法:研究选用了六种主流的机器学习回归算法:支持向量回归、随机森林、K近邻、多层感知器、梯度提升回归和偏最小二乘回归。 * 执行平台与工具:所有分析在Google Colaboratory云端环境中完成,使用Python编程语言及Scikit-learn机器学习库实现模型开发。 * 数据集划分与参数调优:将总数据集按80%(训练)和20%(测试)的比例随机分割。针对每一种算法,都使用网格搜索交叉验证功能进行超参数调优,以选择能够使预测误差(均方根误差)最小的最优参数组合。 * 模型评估指标:模型性能的评估主要依赖于决定系数和均方误差。
步骤三:模型解释与关键波长识别 这是本研究的创新与核心环节。 * 应用可解释人工智能技术:为了克服机器学习模型的“黑箱”特性,研究引入了可解释人工智能工具,具体采用SHAP值。 * 全局解释:针对表现最好的几个模型(如随机森林、梯度提升回归),计算SHAP值以评估在整个模型层面,每个光谱波段(波长)对预测小麦氮含量的平均贡献度。这有助于识别对模型决策影响最大的关键波长范围。 * 局部解释:特别针对性能最优的随机森林模型,研究者对不同生长阶段的单个样本(光谱)进行SHAP值分析。这能够揭示在作物生长的特定时期,哪些波长对氮含量预测最为重要,从而理解特征重要性的动态变化。
1. 光谱预处理与机器学习模型性能比较: 在总共生成的24个模型(4种预处理 × 6种算法)中,预测性能存在显著差异。 * 使用原始光谱时,所有模型的预测精度普遍最低。 * 随机森林 和 梯度提升回归 模型在结合 降分辨率+一阶导数 预处理技术时,表现最优,其决定系数分别高达 0.89 和 0.87,均方误差也相应较低。这表明该组合能够最有效地提取与氮含量相关的光谱信息。 * 偏最小二乘回归模型在使用一阶导数或降分辨率+一阶导数预处理时也取得了较好的结果,但其决定系数低于随机森林和梯度提升回归。
2. 基于XAI的模型解释结果: 这部分结果是本研究的亮点,提供了超越简单预测的深入见解。 * 全局模型解释: * 对于随机森林模型,对预测小麦氮含量贡献最大的波长主要集中在790至862纳米的近红外区域。该区域是典型的“参考波长”区,受叶绿素吸收影响小,反射率主要受叶片内部结构(如海绵组织)光散射特性的调控,与生物量和氮含量间接相关。 * 对于梯度提升回归模型,重要波长除了近红外区域外,还包括406-408纳米等可见光波段。 * 对于偏最小二乘回归模型,重要波长则集中在658至672纳米(靠近叶绿素吸收峰675纳米)以及1662和2258纳米(与叶片干物质含量相关,而干物质常与氮浓度相关)。这与传统基于光谱指数的研究结论一致。 * 局部模型解释(随机森林模型,不同生长阶段): * 生长初期:小麦出苗后6天内,重要的预测波长包括672, 794, 804, 806, 816, 820纳米。672纳米是叶绿素敏感波段,而近红外波段可能反映了幼苗早期的生物量积累。 * 分蘖期:生长45天后,重要波长变为716, 794, 804, 806纳米。 * 抽穗至灌浆期:生长63-72天后,重要波长组合变为724, 806, 820, 1556, 1582纳米。1556和1582纳米属于短波红外区域,与水分子和干物质(如纤维素、木质素)的吸收特征密切相关,表明此时植株的氮状态与水分状况、结构物质的关联性增强。 * 成熟期:生长91-97天后,重要波长集中在718, 720, 724, 1272纳米。1272纳米也与水分吸收有关,反映出成熟期植株生理状态的转变。
逻辑关系:这些结果从流程上表明,通过系统比较预处理和算法,可以找到最优预测模型(随机森林+降分辨率+一阶导数)。进一步,通过可解释人工智能工具,不仅能验证模型决策的合理性(如识别出与生理机理相关的关键波段),更重要的是揭示了关键预测波长的时变性,即不同生长阶段,小麦氮含量的光谱响应特征不同。这一发现对于指导如何根据作物生育期动态选择最佳监测波段具有重要价值。
结论: 1. 机器学习技术,特别是结合了降分辨率与一阶导数预处理的随机森林和梯度提升回归模型,能够高效、准确地从近端高光谱数据中预测小麦的氮含量。 2. 可解释人工智能,尤其是SHAP值方法,是解释复杂机器学习“黑箱”模型的强大工具。 3. 对于预测小麦氮含量,关键的波长范围因模型而异(例如,随机森林模型的关键波段在790-862纳米),但更重要的是,这些关键波长会随着小麦的生长阶段而发生显著变化。
价值: * 科学价值: * 将可解释人工智能成功应用于农业遥感领域,为理解高光谱数据与植物生化参数(如氮含量)之间的复杂非线性关系提供了新的分析范式。 * 揭示了小麦氮含量光谱响应特征具有生长阶段特异性,深化了对“光谱-生理性状”动态关联机制的认识,对发展基于生理过程的遥感反演模型有启示作用。 * 应用价值: * 为开发低成本、实时、非破坏性的田间小麦氮营养诊断工具提供了完整的技术路线(数据预处理 → 机器学习建模 → 模型解释与特征筛选)。 * 识别出的各生长阶段关键波长,可用于指导设计多光谱传感器的波段配置,或优化高光谱成像的数据处理流程,提高田间监测的效率和针对性,服务于精准施肥决策。
这项研究为利用近端高光谱和先进人工智能技术实现作物氮营养的精准、可解释监测提供了有力的方法论示范和实证依据。