基于高光谱数据的植物叶片性状预测:偏最小二乘回归最佳实践指南
本文由Brookhaven National Laboratory的Angela C. Burnett、Alistair Rogers、Shawn P. Serbin(通讯作者)等多位学者共同撰写,发表于*Journal of Experimental Botany*期刊2021年72卷第18期。
本论文属于一篇技术指导与综述性质的文章,其核心目标是解决植物科学领域内一个日益重要但缺乏统一标准的技术问题:如何正确、可靠地使用偏最小二普回归(Partial Least Squares Regression, PLSR)这一统计方法,从叶片水平的高光谱反射率数据中预测植物功能性状。随着高光谱遥感技术成为快速、高通量、非破坏性植物表型分析的有力工具,PLSR方法因其能有效处理光谱数据的高维度与多重共线性问题而被广泛应用。然而,作者观察到,由于缺乏明确的实践共识,导致不同研究在PLSR模型的构建、验证、报告和应用上存在巨大差异。这种不一致性使得模型结果难以解释、现有模型难以应用于新数据集,甚至可能因未知或未公开的假设而导致错误的预测。为此,作者们旨在通过提供一个详尽的“最佳实践”指南,统一和标准化PLSR在植物高光谱性状预测中的应用流程,从而推动该领域的健康发展。
文章的主要观点与论据如下:
一、 明确PLSR的应用场景与数据收集规范 文章首先界定了PLSR模型适用的范围。其预测目标应为通过实验实测获得的叶片结构(如比叶面积,LMA)、生化(如氮含量、淀粉)或生理性状(如最大羧化速率Vc,max),而非本身就是从反射率衍生的指数(如NDVI)。为了构建一个具有良好预测能力的模型,数据收集是基石。作者强调,校准数据集必须覆盖目标性状的预期变化范围(即“填满性状空间”),这需要通过跨物种、叶龄、环境胁迫或遗传变异进行广泛取样来实现。通常,建立一个稳健的模型至少需要约100个样本,而对于某些复杂性状或数据分布不均的情况,可能需要数百个样本。光谱与性状测量应在叶片的同一区域进行,且光谱测量应在任何破坏性取样之前完成。
在光谱数据收集方面,文章建议使用配备叶夹或接触式探头、波长范围覆盖可见光至短波红外(如350-2500 nm)的光谱辐射计。测量时需确保叶片表面干燥,使用深色背景以避免透射光干扰,并对每个样本点进行3-5次重复测量后取平均。文章特别指出了识别和剔除低质量光谱(如因光泄漏、叶片未完全覆盖视野导致的异常谱线)的重要性,并提供了典型“好”与“坏”光谱的示例图。对于生理和生化性状的预测,作者还提出了特殊考量:例如,测量生理性状时需注意光谱测量本身可能因光照产热对叶片造成影响,且一些生理参数(如Vc,max)具有温度敏感性,建议将测量值标准化到参考温度(如25°C)再进行建模;对于生化性状,则需注意叶片水分对光谱的强吸收可能掩盖其他化合物的特征吸收峰,以及某些生化物质(如淀粉)含量存在日变化,采样时间需保持一致或加以利用以扩大性状变异范围。
二、 提供从数据准备到模型验证的完整PLSR建模教程 这是文章的核心实践部分。作者将PLSR工作流程分解为数据准备、模型构建与验证、不确定性分析等步骤,并配套提供了一个基于R语言的开源脚本教程(“spectratrait”包)。其要点包括: 1. 数据导入与预处理:在质量控制后,需确定建模使用的波长范围(如去除噪声较大的边缘波段,使用500-2400 nm)。作者建议检查目标性状数据的分布,若严重偏态可进行适当转换(如对数变换)以接近正态分布,但光谱数据本身通常无需转换。 2. 数据分割:建议将完整数据集分割为校准集(通常占80%)和独立的验证集(20%)。分割策略应采用分层抽样,确保校准集能代表物种、处理等关键实验变量的变异,避免某些类别被忽视。这与早期仅依赖内部交叉验证的方法相比,能更真实地评估模型在新数据上的预测能力。 3. 确定最优成分数:选择适当的潜在变量(成分)数量是防止模型过拟合或欠拟合的关键。文章推荐使用数据置换法(Data Permutation)来确定最优成分数。具体做法是:从校准集中多次随机抽取子集(如70%)用于建立PLSR模型(刀切法校准),剩余部分(30%)用于内部验证,计算不同成分数下的预测残差平方和。最优成分数通常对应PRESS值最小的点,或PRESS值变化不再显著的点。作者指出,对于叶片水平的性状预测,成分数通常不超过20个。 4. 最终模型校准与验证:使用确定的最优成分数和整个校准集拟合最终PLSR模型。然后,使用预留的独立验证集评估模型性能。评估指标应包括决定系数(R²)、预测均方根误差(RMSEP)以及相对RMSEP(占性状值范围的百分比)。此外,应绘制观测值与预测值的散点图及残差图,以直观检查模型是否存在系统性偏差或异方差性。 5. 模型不确定性分析:为了量化模型预测新数据时的不确定性,文章建议进行刀切法(Jackknife)或自助法(Bootstrap)重采样,生成一系列PLSR模型系数。通过这些系数集合,可以为新样本的预测值计算置信区间和预测区间。这为模型的实际应用提供了重要的误差范围信息。 6. 模型系数与变量重要性分析:解读最终模型的回归系数图和变量投影重要性(Variable Influence on Projection, VIP)图。VIP值大于0.8的波长被认为对预测该性状有重要贡献。这些图有助于理解哪些光谱区域对预测起关键作用,并可结合已知的化学键吸收特征,为预测结果提供可能的物理解释。
三、 指出PLSR应用的常见陷阱与模型报告、共享规范 文章警告研究者在使用PLSR时需避免几个常见陷阱:第一,模型无法可靠地预测校准数据性状范围之外的值,因此构建模型时必须确保校准数据覆盖了应用场景的预期变异范围。第二,PLSR对异常值敏感,需要在建模前进行仔细的数据清理。第三,容易因选择过多成分而导致过拟合,使模型在训练集上表现良好但在新数据上预测能力下降,因此必须遵循严格的成分数选择流程。
为了促进模型的透明度、可重复性和共享应用,文章强烈呼吁建立统一的报告标准。任何发表PLSR模型的研究都应至少报告以下信息:1)验证集的样本量(n);2)最优成分数;3)验证集上的R²和RMSEP(或%RMSEP)。此外,应公开发布模型的回归系数、截距以及任何对变量所做的变换。作者建议利用GitHub或生态光谱模型库(EcoSML.org)等平台共享最终模型系数,以便其他研究者直接应用。
文章还讨论了将叶片水平的PLSR模型应用于冠层尺度遥感数据的挑战。由于冠层结构、光照环境以及传感器波段设置的差异,直接将叶片模型用于冠层光谱往往会导致偏差。因此,适用于冠层尺度的预测模型需要在冠层水平重新建立和校准。
四、 总结本指南的意义与价值 本文的发表具有重要的方法论意义和应用价值。在科学价值上,它填补了植物生态学、表型组学和遥感领域的一个重要空白,即缺乏一个关于如何使用PLSR进行光谱-性状建模的通用、标准化指南。通过整合来自化学计量学、植物生理学和生态学的知识,并提供一步步的实操教程,该文章极大地降低了该技术的入门门槛,提升了研究的可重复性和结果的可比性。在应用价值上,标准化的流程将促进不同团队、不同项目、不同生态系统收集的高光谱与性状数据集的整合与模型互用,加速大规模植物功能性状数据库的构建,从而有力支持作物育种、精准农业、生态系统监测以及对全球变化响应的研究。最终,这篇“实践指南”不仅是一份操作手册,更是推动植物光谱表型领域走向更严谨、更协作、更高效发展阶段的重要催化剂。