本研究由美国加州大学戴维斯分校(University of California, Davis)生物与农业工程系数字农业实验室(Digital Agriculture Lab)的Momtanu Chakraborty、Alireza Pourreza(通讯作者)、Sirapoom Peanusaha、Parastoo Farajpoor以及植物科学系(Department of Plant Sciences)的Sat Darshan S. Khalsa和Patrick H. Brown共同完成。该项研究成果以《整合高光谱辐射传输建模与机器学习以增强杏仁叶片氮素传感》为题,发表于Elsevier旗下的期刊《Computers and Electronics in Agriculture》2025年第234卷。
该研究属于农业信息技术与精准农业领域,核心目标是解决杏仁果园中氮素(N)管理的精确监测难题。背景在于,杏仁是加利福尼亚州重要的经济作物,但其氮肥需求量大,过度施肥会导致地下水硝酸盐污染。传统叶片采样与实验室化学分析(如凯氏定氮法)方法成本高、耗时长且具有破坏性,限制了其在树级或区域尺度上的广泛应用。此外,基于叶绿素含量或传统植被指数(Vegetation Index, VI)的遥感估算方法存在局限性,因为叶绿素仅占叶片总氮的很小一部分(约1.7%),其含量受多种因素影响,与氮素状态的关系并不稳定可靠。相反,蛋白质(如 Rubisco 酶)是叶片氮的主要储存形式(约占15-30%),以其作为代理指标更为可靠。近年来,高光谱遥感与辐射传输模型(Radiative Transfer Model, RTM)为无损、精确估算叶片生化参数提供了可能。PROSPECT模型是广泛使用的叶片级RTM,其最新版本PROSPECT-Pro可以直接估算叶片蛋白质含量。然而,纯粹的物理模型在特定作物(如杏仁)上可能存在系统偏差,而纯粹的数据驱动模型(如机器学习)则依赖大量标注数据且可解释性差、泛化能力弱。因此,本研究旨在开发一种混合建模方法,融合物理模型(PROSPECT-Pro)与数据驱动模型(机器学习)的优势,以提升对杏仁叶片单位面积氮含量(N_area)估算的准确性、鲁棒性和可解释性。具体目标包括:1) 构建一个利用生化性状间相互作用的合成数据集模型,使其预测性能超越PROSPECT-Pro;2) 使用真实数据集评估该混合模型的准确性和不确定性。
研究的详细工作流程可分为以下几个核心步骤:
第一步:研究区域与数据采集。 研究历时两年(2022与2023年),在美国加州中央山谷南北两个杏仁果园进行。共从190个样本树上采集了叶片,每个样本由多片叶子组成以满足实验室分析所需质量。最终获得了124个(2022年,W果园)和66个(2023年,KG与W果园)高光谱样本数据。使用两种光谱仪(SVC HR-1024i 及配合积分球的型号)测量了叶片在400-2500纳米范围的光谱反射率(部分样本含透射率)。同时,进行了详尽的地面真相数据采集:扫描每片叶片以计算叶面积,称量鲜重和干重以计算等效水厚度(Equivalent Water Thickness, EWT)和比叶重(Leaf Mass per Area, LMA),并将干燥研磨后的样品送至实验室,通过凯氏定氮法测定质量基础氮含量(N_mass, %)。最终,通过公式 N_area (g/cm²) = N_mass × LMA 计算出本研究关注的关键参数——单位面积氮含量。
第二步:数据预处理与物理模型应用。 对光谱数据进行预处理,包括剔除重叠波段、计算每个样本的多叶片平均光谱,并插值至1纳米分辨率以满足PROSPECT-Pro模型输入要求。利用PROSPECT-Pro模型在“反演”模式下运行,使用其最优光谱域(2100-2139 nm和2160-2179 nm)从真实叶片光谱中估算一系列生化性状,包括叶绿素(Chl)、类胡萝卜素(Car)、EWT、LMA、碳基成分(Carbon-Based Constituents, CBC)、蛋白质(Prot)和叶片结构参数(Nstruct)。根据PROSPECT-Pro的设定,利用转换系数Kp=4.43将估算的蛋白质含量转换为氮含量(N = Prot / Kp)。研究还将模型估算的N、EWT和CBC与地面实测值进行对比,发现了PROSPECT-Pro对杏仁叶片存在系统偏差:高估N,低估EWT和CBC。为此,研究分别针对2022年(使用积分球,测量方向半球反射率DHRF)和2023年(使用叶片夹,测量双向反射率因子BRF)的数据集计算了调整因子,以校正这些偏差。
第三步:合成数据生成与混合模型构建。 这是本研究的核心创新步骤。为了克服真实数据变异范围有限、标注成本高的问题,研究团队生成了用于训练混合模型的合成数据集。具体方法是:首先对真实光谱数据进行主成分分析(Principal Component Analysis, PCA),保留99%的方差;然后在PCA空间中对真实数据点进行凸包扩展,并随机采样生成新的合成光谱数据点(约2000个),再通过PCA逆变换回原始光谱空间。接着,使用PROSPECT-Pro模型(正向模式)为这些合成光谱数据赋予对应的生化性状标签(N、EWT、CBC等)。至此,拥有了一个带有精确生化标签的、光谱变异范围可控的合成数据集。基于此数据集,构建了多任务高斯过程回归(Multi-output Gaussian Process Regression, GPR)模型作为混合模型的核心。该模型以合成光谱为输入,同时预测多个生化性状(N、EWT、CBC等),其优势在于能够利用这些性状之间的相关性来提升单个性状(尤其是氮)的预测精度。模型使用径向基函数(RBF)和Matern核的组合核函数,并通过5折交叉验证进行训练和超参数优化。关键点在于,整个混合模型的训练和验证完全在合成数据集上进行,而真实的杏仁叶片光谱数据则作为独立的测试集,用于最终评估模型的泛化能力。
第四步:对比模型构建与性能评估。 为了全面评估混合模型的性能,研究还构建并测试了多种对比模型,包括:1) 数据驱动模型:a) 基于植被指数的简单线性回归(测试了NDNI、NDRE等5个指数);b) 化学计量学方法——偏最小二乘回归(Partial Least Squares Regression, PLSR);c) 机器学习方法——单任务高斯过程回归(GPR)。2) 物理模型:即经过调整因子校正后的PROSPECT-Pro估算结果。所有模型均使用相同的测试集(真实数据)进行评估,性能指标包括决定系数(R²)、均方根误差(RMSE)和归一化均方根误差(NRMSE)。
研究的主要结果如下:
关于物理模型PROSPECT-Pro的表现: 研究发现,蛋白质的特定吸收系数在短波红外(Short-Wave Infrared, SWIR)区域,特别是2100-2200纳米波段,存在显著的吸收峰,这证实了利用SWIR波段直接估算蛋白质/氮含量的物理基础。未经校正的PROSPECT-Pro直接估算的N_area与实测值相关性很差(R² = -2.88)。经过数据集特定的调整因子校正后,性能有所改善,R²提升至0.19,RMSE为0.00004 g/cm²。这证明了PROSPECT-Pro在应用于杏仁这一特定作物时存在系统偏差,但通过校正可以获得一定的估算能力。
关于不同模型性能的比较: 混合模型(多任务GPR)在预测N_area上表现最佳,R²达到0.54,NRMSE为16.9%。其性能显著优于校正后的PROSPECT-Pro模型(R²=0.19, NRMSE=22.3%)。在数据驱动模型中,PLSR在训练交叉验证中表现出很高的R²(0.75),但这可能存在对训练数据的过拟合风险;而单任务GPR的性能不及多任务混合模型。在测试的植被指数中,包含SWIR波段的氮诊断指数(NDNI)表现最好(R²=0.49),优于仅基于可见光-近红外(VIS-NIR)的指数(如NDRE),这再次强调了SWIR波段对于氮素(通过蛋白质)估算的关键作用。相关性分析进一步证实,PROSPECT-Pro估算的氮与实测氮的相关系数(r=0.70)远高于其估算的叶绿素与实测氮的相关系数(r=0.40),支持了蛋白质比叶绿素更能可靠代表叶片氮状态的观点。
关于模型不确定性分析: 研究引入欧几里得距离来衡量真实光谱与合成光谱库的相似性,并分析了该距离与模型预测残差的关系。结果表明,对于N、EWT、CBC三个性状,混合模型的预测残差整体小于PROSPECT-Pro模型,且其残差分布随光谱距离增大而扩散的趋势更为平缓。这说明混合模型在面对与训练集(合成数据)光谱特征差异较大的样本时,表现出更好的稳定性和更低的预测不确定性。
基于以上结果,本研究得出以下结论:通过整合高光谱辐射传输建模(PROSPECT-Pro)与机器学习(多任务GPR),并利用PCA生成的合成数据进行训练,所开发的混合建模方法能够显著提高杏仁叶片单位面积氮含量的估算精度和鲁棒性。该方法成功利用了蛋白质作为氮素传感的更优代理指标,并凸显了SWIR波段在此过程中的重要性。混合模型不仅实现了比纯物理模型更高的预测性能(R²从0.19提升至0.54),还通过合成数据训练有效降低了对大量真实标注数据的依赖,并展现出更好的泛化能力和更低的不确定性。
本研究的科学价值与应用价值在于:1) 方法论创新:提出并验证了一种“物理模型生成合成标签 + 数据驱动模型学习复杂关系”的混合框架,为农业遥感中的性状反演提供了新思路,兼顾了物理可解释性与数据驱动的灵活性。2) 解决具体农业问题:为杏仁产业的精准氮管理提供了一个更准确、可扩展的叶片级氮素监测工具,有助于指导变量施肥,减少氮肥浪费和环境污染,符合可持续农业发展的需求。3) 模型修正贡献:通过计算调整因子,揭示了PROSPECT-Pro模型在杏仁作物上的系统偏差,为后续研究使用该模型估算杏仁叶片性状提供了重要参考。4) 理论证实:通过光谱分析,实证了蛋白质含量相较于叶绿素含量与总氮具有更强的相关性,明确了在杏仁中基于蛋白质进行氮传感的优越性。
本研究的亮点包括:1) 新颖的混合建模策略:创造性地使用物理模型为合成光谱数据提供“完美”标签,并以此训练一个能够捕捉生化性状间相互作用的多任务机器学习模型,最终在未见过的真实数据上取得良好泛化。2) 强调SWIR与蛋白质的关键作用:研究从物理机理到模型应用,全过程凸显了短波红外波段和蛋白质含量在氮素遥感中的核心地位,对领域内过于依赖叶绿素和VIS-NIR波段的传统做法提出了有力补充和修正。3) 全面的不确定性评估:不仅比较了点估计精度,还引入了光谱距离与残差的关系分析,对模型预测的可信度进行了深入探讨。4) 专注于高价值经济作物:针对加州重要的杏仁产业展开具体研究,具有明确的应用导向和实际价值。
此外,研究也指出了未来的改进方向,例如需要收集更全面的地面真相数据(如叶绿素、类胡萝卜素)来验证和调整模型对其他性状的估算,以及将模型推广到更多样化的果园环境和生长阶段,并最终集成到实际的农业管理系统中。