基于非侵入式可见光-近红外与生物阻抗光谱融合及机器学习对甜罗勒(Ocimum basilicum L.)胁迫分类的研究报告
本研究由来自韩国首尔国立大学(Seoul National University)生物系统工程系的Daesik Son、Junyoung Park、Siun Lee、Soo Chung*,以及韩国电子通信研究院(Electronics and Telecommunications Research Institute, ETRI)的Jae Joon Kim共同完成。研究成果以“Integrating non-invasive Vis-NIR and bioimpedance spectroscopies for stress classification of sweet basil (Ocimum basilicum L.) with machine learning”为题,于2024年7月17日在线发表于学术期刊《Biosensors and Bioelectronics》(卷263,文章编号116579)。
一、 学术背景 本研究属于精准农业与植物表型分析交叉领域,具体聚焦于利用先进传感技术与机器学习进行植物胁迫的早期、无损诊断。植物在生长过程中会遭遇干旱、盐碱、低温等多种非生物胁迫,这些胁迫会引发植物内部生理和外部成分的变化,最终导致生长减缓、产量下降。传统上,农民多依赖经验进行肉眼观察来诊断胁迫,这种方法主观性强且难以在早期发现。同时,现代农业中广泛使用的环境传感器(如温湿度、CO2传感器)仅能监测环境条件,无法直接反映植物自身的生理健康状况。因此,开发一种能够直接、快速、无损地诊断植物胁迫类型和程度的技术,对于实现高效、精准的作物管理、制定恰当应对措施、提升农业生产力和资源利用效率具有重要意义。
光谱学技术是获取植物直接生理信息的有效手段。其中,可见光-近红外(Vis-NIR)光谱通过分析叶片反射光谱,可以获取与叶绿素、水分、类胡萝卜素、花青素等相关的植被指数(Vegetation Indices),这些是反映植物表面状态和光合能力的外部指标。另一方面,生物阻抗光谱(Bioimpedance Spectroscopy, BIS)通过测量植物组织在不同交流电频率下的阻抗和相位角,能够揭示细胞膜完整性、细胞内外部电解质浓度等内部生理信息。这两种技术分别从外部和内部提供了植物对胁迫响应的互补信息。
尽管已有研究分别利用Vis-NIR光谱或BIS结合机器学习(ML)来诊断特定胁迫(如水分胁迫、冻害),但目前尚未有研究将这两种光谱数据融合,用于区分多种不同类型的植物胁迫。本研究旨在填补这一空白,探索数据融合策略在提升植物胁迫分类精度方面的潜力。具体研究目标是:1)非侵入式地获取甜罗勒在三种胁迫(干旱、盐分、低温)下的BIS和植被指数数据;2)评估融合这两种数据集对于胁迫类型分类的效果;3)利用多种机器学习模型寻找最优分类器;4)进一步尝试对每种胁迫的严重程度进行早期分类。
二、 详细工作流程 本研究的工作流程系统性地涵盖了样本准备、数据采集、特征提取、机器学习建模与性能评估等多个环节。
1. 样本准备与胁迫处理: * 研究对象与培养条件: 研究选用甜罗勒(Ocimum basilicum L.)作为模式植物。种子在室内可控环境下水培7周,环境条件控制在温度21–23°C,光周期16小时光照/8小时黑暗,营养液电导率维持在2500-3500 μS/cm。 * 胁迫处理设计: 设置三个胁迫处理组和一个对照组。胁迫类型包括:干旱胁迫(停止供水)、盐分胁迫(在营养液中添加NaCl至200 mM浓度)、低温胁迫(将植株置于4°C冰箱中)。对照组维持正常培养条件。 * 处理时长与样本量: 对于干旱和盐分胁迫,在96小时内每24小时测量一次数据,共4个时间点(TD1至TD4)。对于低温胁迫,由于甜罗勒在4°C下黑化症状发展迅速,在8小时内每2小时测量一次,同样设4个时间点(TD1至TD4)。整个实验重复两次,每次从6株植物的不同部位随机选取24片叶子进行测量。最终,共获得768个样本数据点(2次实验 × 24片叶 × 4个时间点 × 4个组别)。
2. 数据采集: * 生物阻抗光谱(BIS)测量: 使用阻抗分析仪(Emstat4)和心电图水凝胶电极进行非侵入式测量。将两个电极以固定2厘米间距贴在叶片中脉同一侧,以避免主脉水分差异的影响。在50 Hz至200 kHz的频率范围内,对数均匀选取108个频率点,施加500 mV交流电压,测量每个频率点的阻抗和相位角,共计216个原始特征。 * 光学光谱(Vis-NIR)测量: 使用光谱仪(Flame)和恒定光源,在350 nm至1000 nm波长范围内测量叶片反射光谱。测量在暗室中进行,并使用白色反射标准板进行校准。光谱探头放置于两个BIS电极之间的叶片表面,以获取对应区域的反射光谱。
3. 特征提取与数据处理: * 生物阻抗特征提取: 首先对所有BIS数据进行归一化处理以消除量纲影响。随后,采用主成分分析(PCA)对216维的BIS数据进行降维,提取了前6个主成分(PCs),它们解释了数据总方差的98.8%。这6个PCs被用作代表BIS信息的特征。 * 植被指数计算: 从反射光谱中计算了6个与植物胁迫相关的植被指数:光化学反射指数(PRI)、红边归一化植被指数(RENDVI)、Vogelmann红边指数(VOG)、改进型归一化差值指数(MND)、类胡萝卜素反射指数(CRI)和花青素反射指数(ANTH)。这些指数分别关联光合作用效率、叶绿素含量、水分含量和次生代谢物水平,将数千维的光谱数据浓缩为6个具有明确生理意义的特征。
4. 机器学习建模与评估: * 模型与数据集: 研究采用了8种有监督机器学习模型,包括3种线性模型(支持向量机SVM、逻辑回归LR、线性判别分析LDA)和5种非线性模型(多层感知器MLP、K近邻KNN、随机森林RF、朴素贝叶斯NB、决策树DT)。为了评估数据融合的效果,构建了三种数据集进行对比:1)仅BIS特征(6个PCs);2)仅植被指数特征(6个);3)融合特征(BIS PCs + 植被指数,共12个)。 * 性能评估方法: 采用10折交叉验证来评估模型的平均分类准确率,以避免过拟合。同时,将所有数据按6:2:2的比例划分为训练集、验证集和测试集,对最优模型进行最终性能检验。除了整体准确率,还通过混淆矩阵和F1分数来细致评估模型对每个胁迫类别和对照组的分类性能。此外,研究还利用最优模型对每种胁迫的严重程度进行了二元分类(轻度:TD1;严重:TD2-TD4)。
三、 主要结果 1. 生物阻抗光谱的响应模式: Bode图显示,三种胁迫在阻抗和相位谱上呈现出不同的频率响应模式。干旱胁迫组的阻抗在整个频率范围内显著高于对照组,这与水分减少导致阻抗增加的预期一致。盐分胁迫组的阻抗低于干旱组但高于对照组,这可能源于盐分引起的渗透胁迫导致叶片水分含量下降。低温胁迫组的阻抗模式与对照组最为接近,可能因为处理时间较短且水分供应充足。在相位角方面,不同胁迫组在特定频段(尤其是高于100 kHz)表现出与对照组的差异,这反映了细胞膜和细胞内电解质状态的变化。PCA分析进一步证实,基于BIS数据,不同胁迫组的数据点在降维空间中有分离趋势,但存在重叠,表明需要更复杂的模型进行分类。
2. 植被指数的统计分析: 对6种植被指数的分析显示,干旱、盐分、低温和对照组之间在多个指数上存在显著差异(ANOVA及Tukey HSD检验)。例如,与光合和水分胁迫相关的PRI、RENDVI、VOG和MND指数,其平均值大致按干旱<盐分<对照<低温的顺序递增或递减,这与已知的胁迫生理响应相符。与次生代谢物相关的CRI和ANTH指数也在不同胁迫间表现出差异。这些结果为利用植被指数区分胁迫提供了统计学依据。
3. 胁迫类型分类的机器学习结果: * 模型比较与最优模型选择: 在8种机器学习模型中,无论使用哪种数据集,支持向量机(SVM)均表现出最高的分类准确率。 * 不同数据集的性能对比: * 仅植被指数模型: SVM准确率最低,为0.66 (±0.07)。该模型对低温胁迫的预测较好,但对干旱和盐分胁迫的区分能力较弱,F1分数也相对较低。 * 仅BIS模型: SVM准确率显著提升至0.86 (±0.02)。该模型对所有类别的分类性能均有改善,尤其对低温胁迫的识别率很高(F1分数0.90)。但对干旱和盐分胁迫的区分仍有提升空间,这与两者BIS模式相似有关。 * 融合数据模型: SVM准确率进一步提升至0.90 (±0.03),达到最佳性能。融合模型在所有胁迫类别和对照组上的F1分数均高于或等于单一数据源模型,特别是将对照组的F1分数从0.88(仅BIS)提升至0.93,表明融合内外源信息能提供更全面、互补的特征,从而做出更精确的分类决策。 * 降维效果评估: 研究比较了使用原始216维BIS特征与降维后6个PCs特征的效果。对于SVM模型,使用PCs后准确率从0.86轻微下降至0.83;但在与植被指数融合后,准确率从0.90降至0.88。虽然有小幅下降,但PCA大幅减少了特征维度,显著降低了计算复杂度,为实现低成本、便携式现场测量系统提供了可行性。
4. 胁迫严重程度分类结果: 利用基于融合数据的最优SVM模型,对干旱和盐分胁迫的严重程度(轻度 vs. 严重)进行分类,取得了很高的准确率,分别为0.95和0.93。这表明该模型不仅能区分胁迫类型,还能有效识别胁迫的早期阶段。然而,对于低温胁迫的严重程度分类准确率较低(0.75),模型预测结果严重偏向“严重”类别。这可能是因为低温胁迫处理间隔短(2小时),早期(TD1)与后期的生理变化差异不够显著,但研究指出,模型仍能在2小时内(TD1)成功识别出低温胁迫本身,这本身已具有早期诊断价值。
四、 结论与意义 本研究成功证明,融合非侵入式获取的植物内部生物阻抗信息(BIS)和外部光学信息(植被指数),并结合机器学习,能够以高准确率(0.90)对甜罗勒的干旱、盐分和低温胁迫进行分类。其中,支持向量机(SVM)被确定为最适合此任务的分类模型。此外,该方法还能以高精度(>0.93)对干旱和盐分胁迫的严重程度进行早期判别。
科学价值: 本研究提出并验证了一种创新的植物胁迫诊断方法学框架,即通过多模态传感数据融合来克服单一传感模式的局限性。它深化了对不同非生物胁迫下植物电生理和光学响应特征的理解,并为利用机器学习解析复杂生物物理信号以进行精准表型分析提供了范例。
应用价值: 该研究为开发低成本、便携式的田间植物胁迫实时诊断设备奠定了理论基础。植被指数可以通过搭载特定滤光片的低成本CMOS相机获取,而BIS测量系统可以基于树莓派(Raspberry Pi)等简易平台实现。两者的集成有望制成手持式或固定式田间监测设备,帮助农民及时发现并区分作物胁迫类型与程度,从而指导精准灌溉、施肥或环境调控,实现作物生产的降本增效和可持续发展。
五、 研究亮点 1. 方法创新性: 首次将生物阻抗光谱(BIS)与可见光-近红外植被指数进行数据融合,用于植物多重非生物胁迫的分类,实现了对植物内外生理状态的协同感知。 2. 高精度与实用性: 通过融合策略,将胁迫类型分类准确率从单一最佳数据源的0.86提升至0.90,并对干旱和盐分胁迫的早期阶段实现了超过93%的识别准确率,展现出强大的实际应用潜力。 3. 系统性验证: 研究设计严谨,涵盖了三种常见胁迫、多个时间点、充足的生物学重复,并对比了八种主流机器学习算法,结论可靠。 4. 面向现场应用的考量: 研究特别关注了技术的可转化性,包括采用非侵入式电极、使用可通过低成本硬件获取的植被指数、以及通过PCA降维减少计算需求等,为未来开发田间适用系统指明了方向。
六、 其他有价值的内容 研究还对植被指数和BIS的响应机制进行了基于文献的合理解释,将观测到的数据模式(如干旱导致阻抗升高、特定植被指数变化)与已知的植物生理学知识(如细胞膜损伤、电解质泄漏、光合色素降解等)联系起来,增强了研究的深度和说服力。同时,文章详细讨论了不同胁迫在BIS谱和植被指数上产生差异的潜在生理原因,这不仅服务于分类目的,也为后续相关研究提供了有价值的见解。