基于光谱学的新型光谱指数、PCA及PLSR耦合机器学习模型在盐胁迫水稻表型分析中的应用

分享自：
基于光谱学的新型光谱指数、PCA及PLSR耦合机器学习模型在盐胁迫水稻表型分析中的应用

化学
信息科学
期刊:Spectrochimica Acta Part A: Molecular and Biomolecular SpectroscopyDOI:10.1016/j.saa.2019.117983
【点击此处】阅读全文、收藏及针对性提问
关于水稻盐胁迫表型分析的高光谱遥感新方法研究报告
本研究由印度农业研究理事会（ICAR）下属机构的科研团队完成。具体作者为来自ICAR-中央沿海农业研究所（位于果阿）的Bappa Das（通讯作者）、K.K. Manohara、G.R. Mahajan，以及来自ICAR-印度农业研究所（位于新德里）的Rabi N. Sahoo。其研究成果以题为《基于光谱的新指数、PCA及PLSR耦合机器学习模型用于水稻盐胁迫表型分析》的论文形式，发表于2020年的国际期刊《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》（第229卷）。
研究的学术背景与目的 本研究隶属于农业信息学与植物表型组学的交叉领域，核心是利用高光谱遥感技术应对农业生产中的盐碱地问题。在印度，内陆及沿海地区的盐渍化土壤总面积可观，严重制约了水稻等作物的生产力。传统上，选育耐盐基因型和品种是提升盐碱地生产力的有效途径，但依赖于化学分析的常规表型鉴定方法耗时耗力、具有破坏性且难以处理大规模的基因型群体。因此，开发快速、可重复、可靠的非破坏性高通量表型技术成为迫切需求。 在此背景下，高光谱遥感技术展现出巨大潜力。植物叶片在可见光-近红外（VNIR）波段的光谱反射特性受到其内部生化成分（如色素、水分、蛋白质）的强烈影响，这些成分在盐胁迫下会发生改变。然而，VNIR光谱特征宽泛且复杂，难以直接对应特定化学成分，通常需要借助多元建模技术进行量化。近年来，结合主成分分析（PCA）或偏最小二乘回归（PLSR）等线性模型与人工神经网络（ANN）等非线性机器学习模型的方法逐渐流行，但在盐胁迫条件下用于叶片养分含量估测的研究尚少。 基于以上背景，本研究旨在开发一套基于高光谱遥感的、非破坏性的高通量表型技术，用于水稻盐胁迫监测。具体目标包括：1）识别对盐胁迫敏感的叶片养分状态的新型高光谱指数；2）开发并比较单独PLSR模型、PLSR耦合机器学习模型以及PCA耦合机器学习模型，以建立稳健的叶片离子含量量化模型，从而实现水稻盐胁迫的快速、可靠表型分析。
详细研究流程 本研究设计严谨，流程清晰，主要包括实验设计、数据采集、指数开发与多元模型构建四大环节，具体如下：
第一环节：实验设计与样品采集。 研究在印度果阿受沿海盐分影响的自然田间条件下进行，这区别于多数在盆栽、水培或模拟盐田条件下进行的研究，是本研究的独特之处。试验材料包括56份水稻种质资源，涵盖已推广品种、高级育种系和地方品种，采用随机区组设计，两次重复。在水稻最大分蘖期和开花期，从每个材料中随机选取代表性植株，采集叶片样本。首先，立即使用GER 1500型VNIR光谱仪（282-1097 nm范围）采集新鲜叶片的光谱反射率数据。测量时，每个叶片样本取5次光谱读数的平均值，之后光谱数据被重采样至1 nm间隔，并经过Savitzky-Golay滤波平滑降噪，最终使用350-1050 nm范围内（信噪比较好）的数据进行分析。光谱测量完成后，将叶片样本烘干、研磨，用于后续化学分析。
第二环节：生化数据分析。 将制备好的植物样品用硝酸-高氯酸混合液消化，随后使用原子吸收光谱仪精确测定叶片中钾（K）、钠（Na）、钙（Ca）、镁（Mg）、铁（Fe）、锰（Mn）、锌（Zn）、铜（Cu） 八种元素的含量。这些实测的养分含量数据将作为“真值”，用于与光谱信息建立关联模型。
第三环节：新型光谱指数开发。 研究者基于全部可能的两波段组合，计算了窄波段归一化差值光谱指数（NDSI），其公式为 (R_λ1 - R_λ2) / (R_λ1 + R_λ2)。通过计算每个NDSI与八种叶片养分含量的相关系数，绘制了相关系数等高线图。最终，为每种养分元素筛选出相关系数最高的特定波长组合，构成最优NDSI指数。这一分析通过研究者自行开发的MATLAB代码完成。
第四环节：多元模型构建与比较。 这是本研究的核心方法部分。研究者采用了三种建模策略进行系统比较： 1. 指数模型：直接使用上述开发的最优NDSI指数与养分含量建立简单回归模型。 2. PLSR耦合模型：首先对光谱数据运行偏最小二乘回归（PLSR），提取出能够最大程度解释养分含量变异的潜变量（LVs）。然后，将这些LVs作为输入特征，用于训练一系列机器学习模型。这些模型包括：弹性网络（Elnet）、支持向量机回归（SVR）、高斯过程回归（GPR）、多元自适应回归样条（MARS）、随机森林（RF）、极限梯度提升（XGBoost）、广义加性模型（GAM）以及K-最近邻（KNN）。每种模型都通过十折交叉验证结合五次重复的方式进行参数优化和校准。 3. PCA耦合模型：首先对光谱数据进行主成分分析（PCA），提取特征值大于1的主成分（PCs）。然后，将这些PCs作为输入特征，代入与上述相同的八种机器学习模型中进行分析。 所有模型的数据集均随机划分为校准集（用于训练和调参）和独立的验证集（用于评估模型泛化能力）。模型性能通过相关系数（r）、一致性指数（d-index）、平均偏差误差（MBE）、均方根误差（RMSE）以及性能与四分位间距之比（RPIQ）等多个指标进行综合评估。
主要研究结果 研究取得了多层面的具体结果，系统地回答了研究目标：
首先，盐胁迫导致的光谱与养分变异。 描述性统计显示，校准集与验证集中各叶片养分含量范围广泛，且两个数据集在均值和方差上无显著差异（除Mg外），表明数据集划分合理。盐胁迫下，不同基因型的光谱在近红外区域（800-1050 nm）表现出更显著的变异，这为养分定量提供了信息基础。所有养分参数（除Mg外）均呈非正态分布，因此在多元建模前进行了Box-Cox变换以满足模型假设。
其次，新型光谱指数的性能。 通过等高线图成功识别出对每种养分最敏感的NDSI指数波长组合。例如，对K最敏感的指数基于906 nm和905 nm，对Fe最敏感的指数基于669 nm和498 nm。校准阶段，指数与养分含量的相关系数在0.34（Mn）到0.63（Fe）之间；在独立验证阶段，相关系数在0.36（Mn）到0.66（Fe）之间，表现出一定的稳健性。RPIQ值显示，Zn的预测性能相对较好（校准1.80，验证1.93），而Fe和Ca的预测性能较差（RPIQ接近或低于1）。相关性热点主要出现在可见光区域（400-700 nm），这与盐胁迫导致色素变化有关；而K的敏感波段位于近红外区，可能与离子失衡引起的叶片结构变化相关。
第三，多元模型的比较与优选。 1. 单独PLSR模型：对K、Ca、Na、Zn、Cu的预测效果较好（校准r > 0.70），但对Fe和Mn的预测不可靠。这可能是由于本研究使用的VNIR光谱仅到1050 nm，而文献中报道的对这些养分更敏感的波段多位于短波红外区域。 2. PLSR耦合机器学习模型：性能显著提升。在校准阶段，大多数模型表现出色（r达0.86-0.99）。在验证阶段，Elnet和GAM模型对K、Ca、Mg、Zn、Cu的预测表现最佳；GPR和SVR对Na的预测最佳。根据综合排名（对多个性能指标进行排序并加和），对于不同养分，最佳模型各异：例如，对K是Elnet/SVR/GAM，对Ca是XGBoost，对Mg和Na是SVR，对Zn是Elnet，对Cu是SVR。所有模型中，KNN的表现始终最差。PLSR-LV方法通过降低数据维度和多重共线性，保留了原始数据的大部分信息，提升了计算效率和模型性能。 3. PCA耦合机器学习模型：其性能整体上逊于PLSR耦合模型。在验证阶段，所有模型对K、Ca、Mg的预测r值均低于0.70，RPIQ值也多低于1.5，表现不佳。尽管对Na、Zn、Cu的预测相对较好（r在0.58-0.68之间），但整体上不如PLSR耦合模型。这是因为PCA提取主成分时未考虑因变量（养分含量）的信息，而PLSR的潜变量构建则最大化了对因变量的解释力。
综合结论：三种方法的性能排序为：PLSR耦合机器学习模型 > PCA耦合机器学习模型 > 指数模型。这证实了研究假设，即结合线性降维（PLSR）与非线性机器学习的方法，能够为基于高光谱的叶片养分估测提供更稳健的结果。
研究的结论与价值 本研究成功开发并比较了用于水稻盐胁迫下表型分析的高光谱遥感方法。核心结论是：利用可见光-近红外高光谱数据，结合偏最小二乘回归与机器学习模型（如弹性网络、支持向量机、广义加性模型等），可以快速、非破坏性地估测水稻叶片中多种宏量及微量元素的含量，从而实现耐盐基因型的筛选。 其科学价值在于：1）在自然沿海盐渍田间条件下验证了高光谱表型技术的可行性，丰富了该领域的研究场景；2）系统比较并证明了“PLSR+机器学习”混合建模框架在复杂生化参数反演中的优越性，为相关研究提供了方法学参考；3）开发了一批对特定养分敏感的新型光谱指数，深化了对盐胁迫下植物光谱响应机制的理解。 其应用价值显著：该方法为水稻育种家提供了一种高通量、低成本的盐胁迫表型鉴定工具，可加速耐盐品种的选育进程。此外，研究所用的VNIR光谱范围与许多机载或星载高光谱传感器的波段设置兼容，展现了未来进行区域尺度盐胁迫监测与制图的潜力，有助于精准农业管理和粮食安全保障。当然，研究也指出，在印度主要水稻生长季节，云层覆盖是实现空基遥感应用的主要限制因素。
研究亮点 1. 研究场景新颖：在受沿海盐分影响的自然田间条件下开展实验，而非受控环境，使研究结果更具实际应用价值。 2. 方法系统全面：不仅开发了传统光谱指数，更重点系统性地比较了从线性模型（PLSR）到非线性机器学习模型，再到两者耦合的多种先进建模策略，并明确了PLSR耦合模型的优势。 3. 目标参数多样：同时估测了K、Na、Ca、Mg四种大量元素和Fe、Mn、Zn、Cu四种微量元素，全面评估了盐胁迫下的离子组变化。 4. 技术路线具有推广潜力：研究所建立的技术流程，结合了相对便携的地面VNIR光谱仪与高效的计算建模方法，为开发适用于田间高通量表型分析的实用化工具提供了完整范例。
其他有价值内容 论文中提供了详细的56个水稻基因型列表、叶片养分含量的完整描述性统计数据、各模型性能的详细表格以及光谱曲线、相关性等高线图、模型拟合图等，数据翔实，论证充分。此外，作者在讨论部分指出，本研究模型精度虽略低于一些利用短波红外光谱的研究，但正因为基于VNIR波段，反而更有利于通过航空或航天平台进行大范围推广，这是一个务实的权衡与前瞻性视角。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问