基于高光谱反射率估算叶片光合能力的模型变异性与可迁移性研究

分享自：
基于高光谱反射率估算叶片光合能力的模型变异性与可迁移性研究

信息科学
农业
期刊:computers and electronics in agricultureDOI:10.1016/j.compag.2024.108837
【点击此处】阅读全文、收藏及针对性提问
关于利用高光谱反射率估算叶片光合能力：模型变异性和可迁移性的研究报告
一、 研究作者、机构与发表信息
本研究的主要作者为Liang Wan（万亮，通讯作者）和Fengdi Ma（马凤迪）。Liang Wan隶属于中国浙江大学（Zhejiang University）的生物系统工程与食品科学学院，Fengdi Ma则来自韩国首尔国立大学（Seoul National University）的环境研究生院。
该研究成果以学术论文形式发表于期刊《Computers and Electronics in Agriculture》2024年的第220卷，文章识别码为108837。文章于2024年3月20日在线发布，标题为《Estimating leaf photosynthetic capacity using hyperspectral reflectance: model variability and transferability》。
二、 学术背景与研究目的
本研究隶属于农业信息感知与植物表型组学交叉领域，核心是利用高光谱遥感技术无损、高效地估算植物叶片的关键生理参数。叶片光合能力，特别是最大核酮糖-1,5-二磷酸羧化/加氧酶（Rubisco）羧化速率（Vcmax），是表征植物生长状态、理解生态系统碳氮循环以及评估作物产量潜力的关键参数。传统上，Vcmax通过耗时耗力的气体交换测量获得，难以满足高通量表型分析的需求。
近年来，利用叶片高光谱反射率直接或间接（通过反演叶片生化性状）估算Vcmax的方法得到了广泛探索。已有研究表明，叶片反射率在估算特定物种或特定数据集的Vcmax方面表现出潜力，其机制被认为与反射率对叶片氮含量、叶绿素含量等与光合能力相关性状的响应有关。然而，现有研究存在几个关键空白：首先，不同研究报道的叶片性状（如叶绿素、氮含量）与Vcmax的关系强弱不一，缺乏跨物种、跨生态系统的系统性比较，导致模型背后的物理机制尚不清晰。其次，已开发的各种估算模型（如偏最小二乘回归PLSR、高斯过程回归GPR、随机森林回归RFR）在不同数据集上的表现存在差异，模型的变异性和不确定性未被充分评估。最后，更重要的是，在一个数据集上建立的模型能否直接迁移应用到其他数据集（即可迁移性），以及影响可迁移性的因素是什么，这些问题尚未得到系统研究。
因此，本研究旨在填补这些知识缺口。具体目标包括：(1) 探究跨不同植物物种数据集时，叶片反射率、叶片性状及其与Vcmax关系的变异性；(2) 比较叶片反射率与叶片性状在估算不同数据集Vcmax时的性能；(3) 探索基于叶片反射率和性状的Vcmax估算模型在不同数据集间的可迁移性，并提出通过添加新样本更新模型的方法来提升可迁移性；(4) 构建一个集成多个回归模型结果的堆叠（Stacking）模型，以降低预测的变异性，优化Vcmax的估算。
三、 详细研究流程与方法
本研究是一个基于多源公开数据的计算与建模分析，主要流程可分为数据准备、性状反演、变异性分析、模型构建与评估、可迁移性测试以及集成建模六个核心步骤。
第一步：数据收集与预处理。 研究汇集了七个公开可用的叶片数据集（编号#1至#7），涵盖了广泛的植物类型和生长环境。这些数据集包括来自美国威斯康星大学麦迪逊分校的多种物种（落叶树、作物、藤本、草本、灌木）、纽约布鲁克海文国家实验室的猩红栎、巴拿马热带森林的落叶和常绿树种、两种杨树物种、巴拿马25种树种、来自澳大利亚和墨西哥的76个小麦基因型以及巴拿马湿性常绿热带森林的39个树种。每个数据集均包含叶片在400-2500纳米范围的高光谱反射率数据以及通过便携式光合作用系统测量并计算得到的Vcmax值。部分数据集还包含了直接测量的叶片干物质含量（Cm）和叶片氮含量（LNC）。为确保数据一致性，所有反射率光谱均统一至1纳米光谱分辨率。样本总数从41到489不等，总计超过1000个样本，为分析模型的普遍性和变异性提供了丰富的数据基础。
第二步：叶片生化与结构性状反演。 由于并非所有数据集都测量了完整的叶片性状，本研究采用了一个名为PROSDM的模型从叶片反射率光谱中反演关键的叶片性状。PROSDM是本研究团队之前开发的一种方法，它耦合了叶片光学特性模型PROSPECT-Pro、光谱导数以及相似性度量。该方法的创新之处在于，它能够有效缓解因使用叶片夹（测量双向反射因子BRF）而非积分球（测量方向半球反射率DHR）导致的反射率光谱差异，从而更准确地从BRF光谱中反演性状。通过PROSDM，研究者从每个样本的反射率光谱中反演出了叶片结构参数（Nstruct）、叶绿素含量（Cab）、类胡萝卜素含量（Cxc）、花青素含量（Canth）、水分含量（Cw）、蛋白质含量（Prot）、干物质含量（Cm）以及碳基成分（Cbc）共8个性状。研究验证了反演出的Cm和Prot（作为LNC的代理）与实测值具有较好的相关性，证明了反演结果的可靠性。
第三步：叶片性状与反射率变异性分析。 在建立估算模型之前，研究首先系统分析了不同数据集中叶片性状之间、以及性状与Vcmax之间关系的变异性。采用主成分分析（PCA）来可视化所有数据集中所有性状的整体关系格局。同时，计算了每个数据集中Vcmax与各个反演性状之间的皮尔逊相关系数（r），以量化关系强度。此外，也对叶片反射率光谱本身进行了PCA分析，以观察不同数据集反射率特征的主要变异方向，探究其与叶片性状构成的联系。
第四步：单数据集Vcmax估算模型构建与比较。 在此阶段，研究分别在每个单一数据集内部，比较了使用叶片反射率光谱全波段（400-2500 nm） 与使用反演的叶片性状集 来估算Vcmax的效果。采用了三种常用的机器学习回归模型：偏最小二乘回归（PLSR）、高斯过程回归（GPR）和随机森林回归（RFR）。对于每个数据集，随机划分4/5样本作为训练集，1/5作为测试集，并重复5次交叉验证以评估模型性能。评估指标包括决定系数（R²）、均方根误差（RMSE）和相对均方根误差（RRMSE）。此步骤旨在回答：在数据集内部，是原始反射率光谱还是从其中提取的性状集能更稳健地估算Vcmax？哪种模型表现更优？
第五步：模型跨数据集可迁移性评估与更新策略。 这是本研究的核心创新环节之一。为了测试模型的可迁移性，研究设计了“源数据集”到“目标数据集”的迁移实验：将一个数据集（源）上训练的PLSR、GPR、RFR模型，直接应用于其他六个数据集（目标）进行预测，计算外部测试的误差（RMSEe）。通过比较不同源-目标组合的误差，评估模型直接迁移的可行性及影响因素。 针对直接迁移效果不佳的问题，研究提出了一种模型更新策略：从目标数据集中选取少量新样本（分别尝试5%和10%的比例）加入源数据集的训练集，重新训练模型，然后再对目标数据集的剩余样本进行预测。通过对比更新前后模型性能的提升，验证该策略的有效性。
第六步：堆叠模型构建与全数据集估算优化。 为了整合不同单一模型的优势并降低预测方差，研究构建了一个堆叠模型。具体流程是：首先，使用5折交叉验证，让每个基础模型（PLSR、GPR、RFR）在训练集的不同子集上训练，并对验证折以及最终的测试集产生预测值；然后，将这些来自不同基础模型的预测值作为新的特征矩阵；最后，使用逐步回归（SWR）作为元模型，基于这个新特征矩阵进行训练，得到最终的堆叠模型预测结果。此步骤分别针对仅使用叶片性状、仅使用叶片反射率以及结合两者 三种输入特征进行，旨在探索集成学习能否在整合所有七个数据集的“大杂烩”数据上，获得比任何单一模型更优、更稳定的Vcmax估算性能。
四、 主要研究结果及其逻辑关联
1. 叶片性状关系的变异性： PCA分析显示，在所有数据集整合分析中，Vcmax与色素含量（Cab, Cxc）紧密聚集，而与结构参数、水分、蛋白质、干物质等性状近乎正交，表明在全局尺度上，Vcmax与色素的相关性更普遍。然而，分数据集的相关性分析揭示了显著的变异性：Cab和Prot（代表氮含量）在所有七个数据集中均与Vcmax呈显著正相关，但相关系数范围较宽（Cab: r=0.30-0.50；Prot: r=0.23-0.61）。其他性状如Nstruct、Cw、Cxc、Cm与Vcmax的相关性则因数据集而异，在某些数据集中显著，在另一些中则不显著。例如，Nstruct在物种丰富的#5和#7数据集中与Vcmax强相关，但在包含多种植被类型的#1数据集中相关性很弱。这表明，虽然Cab和氮含量是Vcmax的普遍指示因子，但其他性状（结构、水分等）的重要性取决于具体的植被类型、生长阶段和物种组成。叶片性状能更好地区分不同数据集（如将热带森林数据集与作物数据集分开），而反射率光谱的PCA得分则重叠严重，说明叶片性状在表征数据集间差异方面优于原始反射率光谱。
2. 单数据集内估算性能比较： 在大多数数据集（#1, #3, #6, #7）中，使用叶片反射率光谱估算Vcmax的精度优于使用叶片性状集。例如，在数据集#6（包含76个小麦基因型）中，PLSR模型使用反射率的交叉验证RMSEcv为31.17 μmol m⁻² s⁻¹，而使用性状的RMSEcv为49.20 μmol m⁻² s⁻¹，误差几乎翻倍。这表明反射率光谱包含了更丰富的、可能与Vcmax直接或间接相关的综合信息。然而，在少数数据集（#2, #4, #5）中，叶片性状表现出了可比甚至略优的性能。三种机器学习模型中，PLSR和GPR在处理高维反射率数据时表现通常较好，而RFR在处理性状数据时有时更优，凸显了模型性能依赖于输入数据特性。
3. 模型可迁移性及更新策略效果： 直接跨数据集迁移模型的结果普遍不理想，外部测试误差（RMSEe）很大，且波动剧烈（标准差大）。这表明在一个数据集上训练的模型难以直接适用于其他数据集。影响可迁移性的关键因素包括数据范围（Vcmax的取值范围）和植物物种组成。数据范围广、物种多的数据集（如#1、#5）作为源模型时，迁移性能相对较好；而物种单一的数据集（如#2，仅猩红栎）或基因型虽多但物种单一的数据集（#6，仅小麦）构建的模型迁移能力较差。 提出的模型更新策略（添加10%目标数据集新样本）显著提升了所有模型的迁移性能，平均RMSEe大幅下降。特别值得注意的是，在采用更新策略后，基于叶片反射率构建的模型（尤其是PLSR）其迁移后的估算精度超过了基于叶片性状的模型。这说明，通过少量新样本的“微调”，反射率光谱模型能更快地适应新环境或新物种，学习到更具泛化能力的特征。
4. 堆叠模型的全数据集估算优势： 当将所有七个数据集合并为一个大型混合数据集时，比较单一模型与堆叠模型的性能。结果显示，对于反射率数据，GPR模型表现最佳（RMSEcv = 32.80 μmol m⁻² s⁻¹）；对于性状数据，RFR模型最佳（RMSEcv = 46.69 μmol m⁻² s⁻¹），再次确认反射率的优势。而堆叠模型进一步提升了估算精度：使用反射率的堆叠模型RMSEcv降至28.73 μmol m⁻² s⁻¹；当联合使用反射率和性状作为输入时，堆叠模型达到了最优性能，RMSEcv为23.51 μmol m⁻² s⁻¹，R²cv达到0.88。这证明集成学习方法能有效调和不同模型的偏差，降低预测方差，从而获得更稳健、更准确的Vcmax估算。
五、 研究结论与价值
本研究系统评估了利用高光谱反射率估算叶片光合能力（Vcmax）的模型变异性与可迁移性，并提出了提升模型实用性的有效策略。主要结论如下： 1. 叶片性状与Vcmax的关系具有情境依赖性：叶绿素含量（Cab）和氮含量（通过蛋白质Prot代理）是Vcmax最普遍的预测指标，但叶片结构、水分、类胡萝卜素等性状的重要性因植被类型、生长时期和物种数量而异。 2. 叶片反射率在单数据集估算中通常优于叶片性状，但叶片性状在区分不同数据集特征方面更具优势。 3. 估算模型不能直接跨数据集迁移，其可迁移性受数据集间数据范围和物种差异的显著影响。 4. 通过添加少量（如10%）目标数据集样本对源模型进行更新，是显著提升模型跨数据集应用能力的有效且实用的策略。更新后，基于反射率的模型展现出更好的迁移性能。 5. 采用堆叠模型集成多种机器学习算法，能够优化估算结果，降低预测的不确定性，为实现跨物种、跨生态系统的Vcmax高精度估算提供了新方法。
本研究的科学价值在于，首次在多物种、多生态系统尺度上，系统揭示了叶片反射率与Vcmax关系的不确定性来源，明确了影响模型可迁移性的关键因素。在应用价值上，提出的模型更新和堆叠集成策略，为开发无需大量本地标定、即可应用于新地点或新物种的“可迁移”光合能力遥感估算模型提供了具体技术路径。这有助于推动高光谱遥感从实验室走向大范围农业和生态系统的光合作用动态监测。
六、 研究亮点
问题导向新颖：聚焦于高光谱估算Vcmax研究中长期被忽视的“模型变异性”和“可迁移性”核心问题，具有重要的方法论意义。
数据涵盖广泛：整合了来自作物、林木、灌木、草本等多种生命型、跨越不同地理区域的七个独立数据集，分析结论具有更强的普适性和说服力。
方法具有创新性： 提出了明确的模型更新流程，为解决遥感模型普适性难题提供了一个简单有效的解决方案。
构建了针对Vcmax估算的堆叠模型，证明了集成学习在整合多模型优势、提升估算稳定性和精度方面的潜力。
应用PROSDM模型反演叶片性状，克服了叶片夹测量光谱与模型输入不匹配的问题，提高了性状反演的准确性，为后续分析奠定了可靠基础。
分析层层递进，逻辑严密：从性状关系变异性分析，到单数据集模型比较，再到跨数据集迁移测试与优化，最后到全数据集集成建模，研究设计完整，逐步深入地回答了所提出的科学问题。
结论具有明确指导意义：明确指出Cab是估算Vcmax最稳健的代理性状，并量化了模型更新所需的最小样本比例（10%），为后续研究和应用提供了具体参考。
七、 其他有价值的内容
研究在讨论部分展望了未来工作方向，指出虽然本研究基于叶片尺度，但所发展的方法有潜力通过耦合冠层辐射传输模型（如PROSAIL、SCOPE）推广到冠层乃至区域尺度。同时，强调需要在更多样化的地区、环境条件和植被类型中对所提方法进行测试和再校准，以最终实现大尺度植物光合作用能力的遥感监测。这为高光谱遥感在精准农业和全球变化生态学中的应用指明了重要的后续研究方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问