基于混合辐射传输与机器学习模型的叶片级叶绿素与水分含量估算改进

分享自：
基于混合辐射传输与机器学习模型的叶片级叶绿素与水分含量估算改进

期刊:computers and electronics in agricultureDOI:10.1016/j.compag.2023.107669
本研究论文《Improved chlorophyll and water content estimations at leaf level with a hybrid radiative transfer and machine learning model》由Jiating Li、Nuwan K Wijewardane、Yufeng Ge和Yeyin Shi共同完成。主要作者分别来自美国内布拉斯加大学林肯分校生物系统工程系（Jiating Li, Yufeng Ge, Yeyin Shi）和密西西比州立大学农业与生物工程系（Nuwan K Wijewardane）。该研究发表于《Computers and Electronics in Agriculture》期刊，出版于2023年，具体卷号为206，文章编号107669，已于2023年2月8日在线发布。本文旨在解决农业遥感领域，尤其是在田间原位样本有限的条件下，如何准确、稳健地估算叶片叶绿素含量（chlorophyll a+b content, Cab）和等效水厚度（equivalent water thickness, Cw）这一关键问题。
学术背景与研究目标研究的核心科学领域是高光谱遥感、农业信息学和植物表型分析。水和氮是作物生长的两大主要限制因子。精确量化作物水分和氮素状况，是实现农业投入（如水、肥）与作物需求精准匹配、推动农业可持续集约化发展的关键。叶片等效水厚度（Cw）可作为指示叶片水分状况的有效代理指标，而叶绿素a+b含量（Cab）与叶片氮含量在营养生长阶段具有强相关性，常被用作叶片氮状况的代理指标。传统的破坏性测量方法虽然准确但耗时费力，光学传感技术，特别是提供数百个狭窄光谱波段的高光谱数据，为快速、无损监测这些性状提供了可能。
然而，利用高光谱数据进行性状估算存在挑战。目前主流的分析方法包括：经验方法（如基于植被指数或机器学习模型）、基于数值优化或查找表的机理模型反演方法，以及结合机理模型和机器学习的混合方法。经验方法（尤其是机器学习模型）虽然灵活，但其性能严重依赖于大量高质量的训练样本，而在农业研究中，受限于时间和人力，田间原位样本的采集往往十分有限，导致模型泛化能力差。机理模型反演（如使用叶片辐射传输模型RTM）基于物理定律，理论上更稳健，但可能因模型参数化问题或缺乏对目标数据集的针对性信息，导致在特定数据集上的反演精度不稳定。传统的混合方法直接使用机理模型生成的模拟数据训练机器学习模型，避免了采集原位数据，但依然面临模拟数据代表性不足和可能过拟合模拟数据的问题。
针对以上挑战，特别是原位样本有限的问题，本研究提出并评估了一种新的混合方法，称为“Spiking-Hybrid”方法。该方法的核心创新在于将一种“Spiking”（尖峰注入）技术引入到传统的混合反演框架中，即在机理模型生成的模拟训练数据集中，“注入”并复刻少量来自目标数据集的田间原位样本，以增强模型在目标数据集上的表现。本研究的具体目标包括：（1）通过比较三种不同的辐射传输模型模拟设置，开发更具代表性的模拟训练数据集；（2）将Spiking-Hybrid方法与三种其他常用方法（基于数值优化的PROCOSINE模型反演、传统的混合方法、纯经验的机器学习方法）进行全面的比较；（3）探究“Spiking”样本量对模型性能的影响。
研究方案与工作流程本研究的工作流程清晰，主要包含以下几个关键步骤：
第一，田间原位数据采集与处理。 研究使用了两套独立的高粱和玉米田间实验数据。高粱实验于2019年春季在温室内进行，涉及15个基因型、两种水分处理和两种养分处理，共采集了299个植株样本。玉米实验于2018年夏季在大田进行，涉及一个玉米多样性群体和两种氮肥处理，共采集了566个植株样本。对于每个植株，采集了第2、3、4片叶，并立即进行高光谱测量。光谱数据使用ASD Labspec地物光谱仪和接触式探头测量，光谱范围为400-2500 nm。在光谱测量后，立即对叶片样本进行破坏性测量，以获取叶片鲜重、干重、叶面积，并使用叶绿素仪测量Cab，使用杜马斯定氮法测量叶片氮浓度。基于这些测量值，计算了叶片单位面积干重（Cm）、等效水厚度（Cw）和单位面积叶片氮含量（LNC）。最终，研究获得了299个高粱和566个玉米植株的高光谱反射率数据以及对应的Cab、Cm、Cw和LNC测量值。
第二，辐射传输模型模拟与训练数据集生成。 本研究采用叶片级辐射传输模型PROCOSINE进行光谱模拟。该模型基于PROSPECT模型，并耦合了COSINE模型以考虑测量几何（双向反射）的影响。为了生成用于训练机器学习的模拟数据集，研究者设定了PROCOSINE模型的输入参数（包括叶片结构参数N、Cab、类胡萝卜素Car、褐色色素Cb、Cw、Cm，以及入射角θi、天顶角θs和镜面反射参数bspec）。针对模拟数据可能存在的“病态”问题（即不现实的参数组合产生看似合理的光谱），研究比较了三种不同的参数化设置（S1， S2， S3）。S1：所有参数独立，服从均匀分布。S2：所有参数独立，服从截断高斯分布，其均值和标准差部分参考文献，部分源自原位训练数据的统计特征。S3：除bspec外，其他五个叶片生化参数服从截断多元高斯分布，其协方差矩阵来自一个公开的编译数据集（LOPEX + Angers）。每种设置下生成约2500个模拟光谱，剔除不合理的反射率值后，最终得到约2000个模拟样本。通过将模拟光谱与田间原位光谱进行比较（包括光谱曲线形态和主成分分析），研究发现S2设置（独立截断高斯分布）生成的模拟数据与田间数据的分布最为接近，因此选择S2用于后续分析。
第三，Spiking-Hybrid方法的核心构建。 这是本研究的核心创新点。其工作流程如下：首先，利用选定的S2设置生成一个模拟数据集（约2000个样本）。然后，从田间原位训练数据中随机抽取K个样本作为“Spiking”样本。为了平衡模拟数据与实测数据在训练模型时的权重，避免模拟数据淹没数量较少的原位数据信息，研究者将这些Spiking样本复制B次，使得处理后原位样本的总数（M = K × B）接近于模拟数据集的大小（约2000）。例如，如果抽取100个Spiking样本，则每个样本复制20次。最后，将模拟数据集与复刻后的原位样本集合并，形成一个集成的训练数据集。该数据集被用于训练机器学习模型，训练好的模型在独立的测试集上进行评估。
第四，比较分析与实验设计。 为评估Spiking-Hybrid方法（记为M4），研究将其与三种基准方法进行比较：M1（直接反演法）：使用数值优化算法（MATLAB的lsqcurvefit函数）直接反演PROCOSINE模型，最小化模拟光谱与实测光谱之间的误差。M2（传统混合法）：仅使用模拟数据集（不包含任何原位数据）训练机器学习模型。M3（经验机器学习法）：仅使用从田间原位训练数据中抽取的Spiking样本（不复制）训练机器学习模型。为了全面评估，研究采用了三种不同的机器学习模型：偏最小二乘回归（PLSR）、高斯过程回归（GPR）和梯度提升回归（GBR）。评价指标包括偏差（Bias）、相对均方根误差（RRMSE）和决定系数（R²）。
第五，Spiking样本量效应探究。 为了解Spiking样本量对M3和M4性能的影响，研究者系统性地改变了从原位训练数据中抽取的Spiking样本数量（20， 40， 60， …，直至全部432个训练样本）。对于每个给定的样本量，随机抽取过程重复100次以消除随机性带来的偏差，并报告性能指标的平均值和标准差。此外，研究还进行了交叉作物测试（用玉米Spiking样本预测高粱，反之亦然），以评估方法的稳健性；并比较了不同模拟设置（S1， S2， S3）对M2和M4的影响，以及Spiking样本复刻策略的影响（不复刻、复刻至模拟数据一半大小、复刻至与模拟数据同等大小）。
主要研究结果研究结果全面验证了Spiking-Hybrid方法的有效性和优势。
首先，不同模拟设置的比较结果。 通过对比模拟光谱曲线、主成分分析得分图，发现基于独立截断高斯分布的S2设置所产生的模拟数据，其光谱范围与统计分布与田间原位数据最为接近，因此被选定为后续所有混合方法（M2， M4）的模拟数据生成方案。
其次，总体性能比较。 根据是否使用田间原位数据，四种方法可分为两类。结果表明，在绝大多数情况下，使用了原位数据的方法（M3和M4）明显优于未使用原位数据的方法（M1和M2）。当Spiking样本量充足时，M3和M4的性能显著领先。特别值得注意的是，在仅使用模拟数据的M2方法估计Cab，以及M1和M2方法估计Cw时，出现了负的R²值，这意味着其预测结果还不如直接用训练样本均值进行预测，这凸显了在模型训练中引入目标数据集信息（原位样本）的重要性。在最佳情况下（使用所有432个训练样本），对于Cab估算，M3结合PLSR模型取得了最佳性能（RRMSE = 9.74%， R² = 0.93）；对于Cw估算，M4结合GBR模型取得了最佳性能（RRMSE = 18.03%， R² = 0.33）。
第三，Spiking样本量效应。 这是本研究的核心发现之一。随着Spiking样本量的增加，M3和M4的性能（RRMSE降低，R²升高，偏差趋近于零）均得到改善，且性能的波动性（标准差）减小。最关键的是，当田间原位样本量非常有限时（例如仅20个样本，占总训练样本的比例不到5%），Spiking-Hybrid方法（M4）在三种机器学习模型下对Cab和Cw的估算都 consistently 表现最好，并且其性能的标准差小于纯经验方法（M3）。 这说明在样本稀缺的情况下，M4不仅精度更高，而且更稳健，对Spiking样本的随机选择不那么敏感。
第四，稳健性分析。 研究从多个角度验证了Spiking-Hybrid方法的稳健性。（1）跨作物稳健性：使用一种作物的20个Spiking样本去预测另一种作物的性状。结果显示，对于Cab和Cw的估算，M4在两种作物上的表现普遍优于或与其他方法相当，展现了良好的跨作物迁移潜力。（2）对模拟数据设置的稳健性：比较了三种模拟设置（S1， S2， S3）下M2和M4的性能。发现与M2相比，M4在不同模拟设置下的性能波动更小，表明引入原位Spiking样本可以降低模型对辐射传输模型参数化细节的过度依赖。（3）对Spiking样本随机选择的稳健性：在固定样本量（如20个）下，M4性能指标（如RRMSE）在100次随机抽取中的标准差普遍小于M3，证明其受Spiking样本具体构成的影响更小。
第五，Spiking样本复刻策略的影响。 通过比较不复刻、复刻至模拟数据一半大小、复刻至与模拟数据同等大小三种情况，研究证实了复刻策略的有效性。总体而言，将Spiking样本复刻至与模拟数据同等大小通常能获得最低的RRMSE，其次是复刻至一半大小，而不复刻策略的性能最差。这支持了研究者的假设：通过复刻平衡两类数据的权重，可以放大原位数据带来的益处。
结论与价值本研究提出并系统评估了一种名为Spiking-Hybrid的新型混合方法，用于在田间原位样本有限的情况下，实现叶片叶绿素含量（Cab）和等效水厚度（Cw）的准确、稳健估算。主要结论是：Spiking-Hybrid方法通过将少量田间原位样本“注入”并复刻到由机理模型生成的大规模模拟数据集中，有效地结合了机理模型的物理泛化能力和机器学习模型的灵活性，同时利用了目标数据集的特定信息。在样本量受限（如少于总训练样本的5%）的情况下，该方法 consistently 表现出优于纯经验方法、传统混合方法以及直接模型反演方法的精度和稳健性。
研究的科学价值与应用价值在于：1. 方法论创新：为解决农业遥感中“小样本”学习问题提供了一个有效、可行的技术框架。它降低了构建高精度估算模型对大量耗时费力田间采样的依赖。2. 应用潜力巨大：该方法特别适用于那些田间同步采样困难或成本高昂的场景，例如即将到来的大规模星载高光谱遥感任务（如EnMAP， CHIME， SBG）。即使对于常规农业研究，在时间和成本限制采样数量时，该方法也能帮助获得可靠的估算结果。3. 促进模型稳健性：研究表明该方法在一定程度上降低了对辐射传输模型精细参数化的依赖，并提高了模型对不同作物、不同数据源的适应能力。
研究亮点核心创新明确：首次将土壤光谱学中的“Spiking”技术系统性地引入到植物叶片性状的混合反演中，并创新性地提出了对少量原位样本进行复刻以平衡数据权重的策略。
问题导向性强：精准聚焦于农业遥感实际应用中的核心痛点——田间原位样本有限，并为此设计了一套完整的解决方案。
验证全面系统：不仅进行了常规的精度比较，还深入分析了样本量效应、跨作物稳健性、对模拟参数的敏感性、对样本随机选择的稳健性以及复刻策略的有效性，论证充分、令人信服。
实用价值突出：研究结果直接表明，该方法能用极少量的田间样本（如20个）达到可接受的估算精度，为降低高光谱技术应用门槛、推动其业务化运行提供了技术支撑。
其他有价值的讨论与未来展望研究在讨论部分也指出了当前方法的局限性并展望了未来方向：1. 方法局限：Spiking-Hybrid方法要求估算的性状必须是所用机理模型（如PROCOSINE）的输入参数，这限制了其直接应用于其他非模型参数（如叶片氮含量）的估算。未来可通过发展或升级机理模型来纳入更多感兴趣的参数。2. 不确定性来源：田间数据本身的变异（如基因型差异、基因型与环境互作）会影响模型性能，尤其是对Cw的估算精度相对较低，未来可针对特定基因型进行深入研究。3. 未来改进方向：研究者提出了几个有潜力的方向，包括：（a）结合主动学习策略，从大规模模拟数据池中精选最具信息量的样本，进一步提升效率和性能；（b）探索迁移学习思路，用模拟数据预训练模型，再用少量原位数据微调；（c）将方法从叶片尺度推广到冠层尺度，利用冠层辐射传输模型（如PROSAIL）进行模拟，以应对更广泛的遥感应用场景。这些讨论为后续研究指明了有价值的探索路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问