基于高光谱成像与数据驱动机器学习方法检测烟草植株重金属汞胁迫的研究报告
一、 研究团队与发表信息 本研究由西北农林科技大学机械与电子工程学院的Keqiang Yu、Shiyan Fang和Yanru Zhao(通讯作者)团队完成。研究论文《Heavy metal Hg stress detection in tobacco plant using hyperspectral sensing and data-driven machine learning methods》发表于期刊《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》第245卷(2021年),文章于2020年9月6日在线发表。
二、 研究背景与目的 本研究属于农业信息技术与植物生理胁迫监测的交叉领域,具体聚焦于利用近端高光谱成像(Hyperspectral Imaging, HSI)技术结合机器学习算法,实现对植物重金属胁迫的无损、快速检测。
研究背景源于重金属污染对农业生产、食品安全和生态环境构成的严重威胁。传统的重金属胁迫监测方法,如原子吸收光谱法(AAS)、电感耦合等离子体质谱法(ICP-MS)等,虽然准确,但耗时、费力、成本高且需要复杂的实验室分析,难以用于大规模作物监测。常规的目视观察和土壤测试等方法也存在主观性强、效率低下的问题。近年来,基于光谱反射率的植被指数(Vegetation Indices, VIs)和辐射传输模型(Radiative Transfer Models, RTM)反演等方法被用于评估植物状态,但面对复杂的非生物胁迫生理效应时,其判别准确性可能下降,或存在模型不稳定等问题。
高光谱成像技术结合了成像与点光谱学的优势,能够同时获取目标的空间信息和连续的光谱信息,已成为在实验室、近端田间、无人机及卫星等不同平台上评估植物表型性状的有力工具。该技术已成功应用于病害、干旱、营养缺乏等生物与非生物胁迫的检测。然而,利用HSI技术结合数据驱动机器学习方法,特异性区分不同浓度重金属汞(Hg)胁迫下的植物冠层响应,仍是一个值得深入研究的课题。
因此,本研究旨在探究近端高光谱成像技术(400-1000 nm)耦合数据驱动机器学习方法,在识别烟草植株受不同浓度重金属汞胁迫的冠层特征方面的潜力。具体目标包括: 1. 使用组装的近端HSI系统获取受0、1、3、5 mg·L⁻¹汞溶液胁迫的烟草植株高光谱图像。 2. 利用主成分分析(PCA)的得分图和得分图像揭示胁迫与非胁迫组的光谱聚类效果。 3. 采用PCA载荷和竞争性自适应重加权采样(CARS)算法筛选用于区分汞胁迫的有效波长(Effective Wavelengths, EWs)。 4. 利用偏最小二乘判别分析(PLS-DA)和最小二乘支持向量机(LS-SVM)建立判别模型,并通过混淆矩阵(CM)和受试者工作特征(ROC)曲线评估模型性能,最终实现烟草植株汞胁迫状态的定性判别。
三、 详细研究流程与方法 本研究流程系统,主要包括样本培育、数据采集、预处理、特征提取、模型建立与评估五个核心环节。
第一环节:样本培育与处理。 研究选用烟草品种‘中烟100’,在无土栽培系统中水培。待植株生长约6周(具6-8片叶,高20-30 cm)后,将180株烟草样本随机分为4组:1个对照组(45株,添加0 mg·L⁻¹ Hg溶液,即等量水)和3个胁迫组(每组45株,分别添加1、3、5 mg·L⁻¹的Hg标准溶液)。处理两周后,进行后续实验。这种设置确保了样本在相同基础条件下生长,胁迫差异主要来源于汞浓度梯度。
第二环节:高光谱图像采集与校准。 研究使用了一套自主组装的推扫式高光谱成像系统。该系统核心组件包括:光谱范围380-1030 nm的成像光谱仪、CCD相机与变焦镜头、两个150W卤钨灯组成的照明组件、由步进电机控制的移动平台以及控制计算机。数据采集在暗室中进行以消除环境光影响。采集参数经过预实验优化:镜头到样本距离约260 mm,相机曝光时间0.008秒,移动平台速度3.1 mm·s⁻¹。为校正光源不均匀性和相机暗电流噪声,每次采集前后分别扫描标准白板(99%反射率)和黑盖(0%反射率)图像。原始高光谱图像(.raw格式)通过公式 Hsi_cal = (Hsi_raw - DRI_0) / (WRI_99 - DRI_0) 进行校准,得到反射率校正后的图像。
第三环节:光谱数据提取与预处理。 使用ENVI软件,在每株烟草植株的校准后高光谱图像冠层区域手动勾画不规则感兴趣区域(ROI)。提取每个ROI内所有像素的光谱,计算其平均光谱作为该样本的代表光谱。最终获得一个180(样本数)× 476(波段数)的光谱矩阵。为减少噪声,去除了380-400 nm和1000-1030 nm的波段,保留400-1000 nm范围共476个波段用于分析。
第四环节:数据驱动分析与模型构建。 这是本研究的核心分析步骤,采用了多种机器学习方法。 1. 表型与显微结构观察: 在处理两周后,直观记录并比较了不同浓度汞胁迫下烟草植株的外观(如萎蔫、黄化程度)和叶片叶肉组织的细胞显微结构(如叶绿体形态与位置),为光谱变化提供生理学解释。 2. 光谱特征分析: 绘制了四组烟草样本的平均光谱曲线及其标准差,初步观察光谱趋势差异。 3. 无监督聚类分析(PCA): 对全光谱数据矩阵进行主成分分析,通过前三个主成分(PCs,累计贡献率99.81%)的得分图可视化不同胁迫组样本的分布与聚类情况,并通过载荷图初步识别对分类贡献大的波长区域。 4. 有效波长筛选: 采用了两种特征选择方法。一是基于PCA前三个主成分载荷图中出现局部极值(正或负)的位置,手动选取了9个有效波长(EWs-PCA):461, 551, 629, 649, 676, 702, 708, 745, 767 nm。二是采用竞争性自适应重加权采样(CARS)这一自动化变量选择算法,从校准集光谱中筛选出13个有效波长(EWs-CARS):408, 432, 450, 523, 535, 677, 713, 746, 757, 825, 897, 967, 999 nm。CARS算法通过蒙特卡洛采样、指数衰减函数和自适应重加权采样,以交叉验证均方根误差(RMSECV)最小化为目标,竞争性地筛选出最优波长子集。 5. 判别模型建立与评估: 首先,使用Kennard-Stone算法将180个样本的光谱数据及其对应标签(组别)按约2:1的比例划分为校准集(120个)和预测集(60个)。研究构建了两类判别任务模型: * 任务一:区分非胁迫组(0 mg·L⁻¹)与胁迫组(1, 3, 5 mg·L⁻¹合并)。 * 任务二:区分三个不同浓度的胁迫组(1 vs. 3 vs. 5 mg·L⁻¹)。 对于每个任务,均尝试了线性方法PLS-DA和非线性方法LS-SVM。LS-SVM采用径向基函数(RBF)作为核函数,并通过网格搜索和留一法交叉验证优化其正则化参数γ和核参数σ²。分别使用全光谱(FS)、PCA筛选的EWs(PCA)和CARS筛选的EWs(CARS)作为输入变量,建立不同的模型(如FS-LS-SVM, PCA-LS-SVM, CARS-LS-SVM)。模型性能通过混淆矩阵(展示分类正确与错误的样本数)和ROC曲线(通过曲线下面积AUC等指标)进行综合评估。
四、 主要研究结果 1. 表型与显微结构结果: 随着汞浓度升高,烟草生长受抑制加剧。0 mg·L⁻¹组生长健康;1 mg·L⁻¹组仅下部叶片轻微黄化;3 mg·L⁻¹组更多叶片严重萎蔫,仅上部少数叶片保持绿色;5 mg·L⁻¹组下部叶片枯死,新生叶片萎蔫,植株几乎停止生长。显微结构显示,0 mg·L⁻¹组叶绿体饱满贴壁;1和3 mg·L⁻¹组大部分叶绿体贴壁,少数轻微变形;5 mg·L⁻¹组大部分叶绿体收缩并从细胞壁脱离。这为光谱差异提供了细胞学层面的证据。 2. 光谱分析结果: 四组样本的光谱曲线轮廓相似,但反射率值存在差异,尤其在550 nm附近(与呼吸色素相关)和700-1000 nm区域(特别是“红边”680-740 nm及970 nm附近的水吸收谷),反射率随汞浓度升高呈递增梯度。这表明不同胁迫程度引起了叶片内部化学组分(如色素、水分)的变化。 3. PCA聚类结果: PCA得分图(PC1 vs. PC3)清晰显示,非胁迫组样本主要分布在PC1和PC3的负侧,而三个胁迫组样本交叉分布在PC1的正侧,表明PCA能有效将非胁迫组与胁迫组区分开。然而,在仅针对三个胁迫组的PCA得分图中(PC1 vs. PC2, PC1 vs. PC3, PC2 vs. PC3),虽然显示出一些组间差异,但存在明显的样本交叉和重叠区域,表明仅用PCA难以清晰区分不同浓度的胁迫组。载荷图指出460 nm、550 nm及670-750 nm(“红边”区域)的波长对区分非胁迫与胁迫组贡献较大。 4. 判别模型性能结果: * 任务一(非胁迫 vs. 胁迫): PLS-DA模型性能不佳(准确率最高仅50%),被放弃。LS-SVM模型表现优异。其中,基于CARS筛选的13个EWs建立的CARS-LS-SVM模型在预测集上达到了100%的准确率,且ROC曲线的AUC值为1,标准偏差为0,性能最佳。基于全光谱(476个变量)的FS-LS-SVM模型和基于PCA筛选的9个EWs的PCA-LS-SVM模型准确率均为98.33%(59/60),各有一个样本误判。这表明CARS算法筛选的波长子集不仅大幅减少了变量数量(从476个降至13个),而且包含了最具有判别力的信息,模型简化且性能提升。 * 任务二(区分三个胁迫浓度): 所有模型的判别准确率均显著下降。PLS-DA模型再次失效。LS-SVM模型中,FS-LS-SVM、PCA-LS-SVM和CARS-LS-SVM的准确率分别仅为55.56%、51.11%和66.67%。混淆矩阵显示,模型主要混淆了1 mg·L⁻¹和3 mg·L⁻¹的样本,部分5 mg·L⁻¹样本被误判为1 mg·L⁻¹组。ROC曲线的AUC值也不理想。这表明在当前实验设置下,区分低浓度梯度(1 vs. 3 mg·L⁻¹)的汞胁迫更为困难。
五、 研究结论与价值 本研究的结论是:近端高光谱成像技术(400-1000 nm)结合数据驱动的机器学习方法,在区分受重金属汞胁迫与未胁迫的烟草植株方面具有强大的潜力。具体而言,通过CARS算法筛选出的13个关键波长(408, 432, 450, 523, 535, 677, 713, 746, 757, 825, 897, 967, 999 nm)建立的LS-SVM模型,能够以100%的准确率实现定性判别。然而,对于区分不同浓度(1, 3, 5 mg·L⁻¹)的胁迫组,现有模型的性能有限,这可能归因于低浓度胁迫下植物冠层(尤其是新鲜叶片)特征相似,以及光谱数据的高维冗余和所选有效波长信息不足。
该研究的科学价值在于:1)系统验证了HSI技术结合CARS-LS-SVM方法在植物重金属汞胁迫早期检测中的可行性与高效性,为植物胁迫生理的光学监测提供了新的方法学范例。2)明确了在低浓度梯度胁迫下,基于冠层光谱进行精细浓度区分的挑战,指出了未来研究需要关注的方向。应用价值在于:为开发用于农田作物重金属胁迫快速、无损、在线监测的专用多光谱传感器或设备提供了重要的波长选择依据和算法基础,有助于实现精准农业中的作物健康诊断与风险管理。
六、 研究亮点 1. 方法创新性: 研究并非简单应用现有HSI技术,而是构建了一套完整的数据分析流程,将PCA无监督聚类、CARS特征波长自动筛选与LS-SVM非线性建模有机结合,显著提升了模型效率与性能。 2. 显著的性能优势: 在核心判别任务(胁迫与否)上,CARS-LS-SVM模型取得了100%的准确率,证明了从高维光谱数据中智能提取少量关键特征的有效性,对于设备简化与实时处理具有重要意义。 3. 深入的机理关联: 研究不仅报告了模型结果,还结合了植株表型观察和叶片细胞显微结构分析,为光谱响应差异提供了生理学解释,增强了研究的可信度和深度。 4. 清晰的局限性分析: 研究坦诚报告了在区分不同胁迫浓度时模型性能的不足,并分析了可能的原因(低浓度胁迫相似性、冠层特征相似等),体现了科学的严谨性,并为后续研究指明了改进方向。
七、 其他有价值内容 作者在讨论中指出,未来研究应考虑纳入更多植物或作物种类、多种重金属胁迫类型、更宽的浓度梯度以及不同生长阶段的样本,以构建更具普适性和鲁棒性的判别或预测模型。这对于进一步评估植物生长状况、诊断作物在生物及非生物胁迫下的营养状态至关重要。此外,研究所用高光谱成像系统为自主组装,显示了团队在硬件集成方面的能力,为特定应用场景定制化设备提供了参考。