分享自:

基于高光谱成像与深度学习快速评估东南景天重金属富集能力

期刊:Ecotoxicology and Environmental SafetyDOI:10.1016/j.ecoenv.2024.116704

本研究由浙江大学等单位的研究人员完成,主要作者包括陆毅、聂林杰、郭新宇、潘甜甜、陈荣钦、刘训悦、李晓龙、李廷强和刘飞(通讯作者)。该研究论文发表在期刊 Ecotoxicology and Environmental Safety 上,于2024年7月在线发表。

学术背景 本研究属于环境科学与农业信息技术交叉领域,具体涉及植物修复(Phytoremediation)、高光谱成像(Hyperspectral Imaging, HSI)和深度学习(Deep Learning)。土壤重金属污染是全球性环境挑战,植物修复作为一种生态友好、成本效益高的技术备受关注。其核心在于利用能够超量吸收重金属的植物——超富集植物(Hyperaccumulator)。然而,传统的超富集植物筛选方法严重依赖耗时耗力的野外采样和实验室化学分析(如原子吸收光谱法AAS、电感耦合等离子体发射光谱法ICP-OES等)。X射线荧光光谱法(XRF)虽有所改进,但仍存在成本、安全性和定量准确性等问题。因此,开发快速、高通量、高效的筛选技术具有迫切需求。

高光谱成像技术能够快速、无损地获取植物的大量表型数据,其反射光谱信息与植物的生理生化状态密切相关。已有研究表明,植物在重金属胁迫下其光谱特征会发生变化,这为利用光谱技术监测重金属胁迫和积累提供了理论基础。机器学习已被用于从光谱中预测植物重金属含量,但在处理大数据和复杂任务时面临精度不足和过拟合等挑战。深度学习,特别是卷积神经网络(CNN),凭借其强大的特征提取和端到端学习能力,在复杂表型分析中展现出优势。本研究旨在将高光谱成像与多任务深度学习相结合,构建一种全新的方法,以期实现对超富集植物的快速鉴定、重金属胁迫类型的判别以及叶片中重金属积累量的定量预测,从而为植物修复过程中的材料筛选和环境监测提供创新工具。

详细研究流程 本研究流程设计严谨,主要包括植物培养与处理、数据采集与处理、模型构建与评估、以及方法验证四个主要部分,具体如下:

  1. 研究材料培养与实验设计:

    • 研究对象: 选择了两种生态型的东南景天(Sedum alfredii):积累型生态型(Accumulating Ecotype, AE)和非积累型生态型(Non-accumulating Ecotype, NAE)。AE是一种已知的镉/锌共超富集植物,对铅也有较强的耐受和积累能力;NAE则相反。
    • 处理设置: 采用水培法。在4周预培养后,将两种生态型的植物分别转移至含有不同重金属的处理液中。处理包括:镉(Cd)处理(5, 10, 15, 25 μM)、锌(Zn)处理(50, 100, 150, 250 μM)、铅(Pb)处理(30, 60, 90, 120 μM)以及多金属混合处理(M,含Cd/Zn/Pb)。同时设置不含重金属的对照组(CK)。每个处理组包含8个平行样本(每个样本由相邻3穴的植株组成)。
    • 培养与收获: 在可控环境生长室中培养10天后,收获植株用于后续数据采集。
  2. 高光谱图像采集与数据处理:

    • 图像采集: 使用两台线扫描高光谱成像系统分别在可见光-近红外(VNIR,414–1017 nm)和短波近红外(SW-NIR,874–1734 nm)范围内采集离体叶片的反射光谱图像。采集前使用白板和暗板进行校准,以消除环境和仪器影响。
    • 图像处理与光谱提取: 对校准后的图像进行处理,以分离叶片区域(感兴趣区域ROI)并提取光谱。处理流程包括:阈值分割去除黑色背景、分水岭算法分割粘连叶片、形态学操作去除噪声像素、连通域标记法识别单叶位置。最后,计算每片叶所有像素的平均光谱,并去除信噪比低的波段,最终保留450–974 nm(410个波段)和975–1646 nm(200个波段)的数据进行拼接,形成每条光谱610个波段的数据。
  3. 重金属参考浓度测定:

    • 采用微波消解结合电感耦合等离子体发射光谱法(ICP-OES)测定叶片中Cd、Zn、Pb的参考浓度。每个处理组的4个样品混合后进行测量,为每个样本提供重金属积累量的“真实值”标签。
  4. 数据分析与模型构建:

    • 数据集构建: 将每条光谱与其对应的7个标签(生态类型、是否受Cd/Zn/Pb胁迫、Cd/Zn/Pb积累浓度)关联,构成完整数据集。根据生态型标签,将总数据集(DS)划分为AE子集(DSA)和NAE子集(DSNA)。
    • 模型任务:
      • 任务一(二进制分类): 使用DS训练模型,区分AE和NAE。
      • 任务二(多标签分类与多输出回归): 分别使用DSA和DSNA训练模型,同时完成两个任务:a) 判断样本是否受到Cd、Zn、Pb胁迫(多标签分类);b) 预测Cd、Zn、Pb的积累浓度(多输出回归)。
    • 对比模型: 研究采用了两种传统机器学习模型作为基线进行对比:偏最小二乘判别分析/回归(PLS-DA/PLSR)和支持向量机分类器/回归(RBF-SVC/LS-SVM)。
    • 自设计深度学习网络(本研究核心创新):
      • 生态型识别网络(ENet): 一个浅层一维CNN,用于生态型分类。结构包括1个一维卷积层、1个一维最大池化层、2个全连接层和1个Sigmoid输出层。使用了指数线性单元(ELU)激活函数和批归一化(BN)以防止过拟合。
      • 重金属胁迫与积累预测网络(HMNet): 一个多任务学习网络,是本研究的核心创新。它包含一个共享特征提取块和四个任务特定块:一个用于重金属胁迫类型判别(多标签分类),三个分别用于Cd、Zn、Pb浓度预测(回归)。这种结构允许网络同时学习相关任务,共享底层特征,提高学习效率和泛化能力。
    • 模型训练与评估: 数据集按比例划分为训练集和预测集,训练集进一步划分为校准集和验证集。使用验证集调整超参数和进行早停。采用了一系列评估指标:对于分类任务,使用准确率、精确率、召回率、F1分数、ROC曲线下面积(AUC)、精确匹配率(EMR)和汉明损失(HL);对于回归任务,使用决定系数(R²)、均方根误差(RMSE)和残差预测偏差(RPD)。
  5. 方法综合评估:

    • 从预测集中随机选取382个样本,模拟未知样本,测试所构建的完整方法流程:首先用ENet判断生态型,然后将样本输入对应生态型的HMNet模型,同时获得重金属胁迫类型和积累浓度预测结果。

主要研究结果 1. 生态型识别结果: 主成分分析(PCA)显示两种生态型光谱部分重叠。在分类模型比较中,自设计的ENet网络表现最优,在预测集上达到了100%的准确率、精确率、召回率和F1分数,AUC值为1,完美区分了AE和NAE。而PLS-DA和RBF-SVC模型分别出现了1个和2个误判。这证明了ENet在基于光谱识别超富集生态型方面的卓越能力,为后续分生态型预测重金属状况提供了可靠的第一步。

  1. 传统模型预测重金属胁迫与积累的结果:

    • 胁迫判别: PLS-DA模型在多标签分类任务中表现优于RBF-SVC,对于两种生态型,其平均EMR为87.83%,HL为0.051,各项标签指标(准确率、精确率等)均约在95%左右,显示出一定的判别能力。
    • 积累量预测: LS-SVM回归模型的预测性能略优于PLSR。除NAE中的Cd预测外,其他模型的预测集R²p均超过0.69,表明光谱与重金属浓度存在相关性。LS-SVM模型对Zn和Pb预测的平均RPD超过2.0。然而,传统模型普遍存在明显的过拟合现象,即在校准集上的性能远优于预测集,说明其泛化能力有限。
  2. HMNet模型预测重金属胁迫与积累的结果(核心发现):

    • 胁迫判别: HMNet模型全面超越了传统模型。对于AE,其EMR达到95.62%,HL低至0.017;对于NAE,EMR为94.95%,HL为0.021。平均而言,HMNet将EMR提高了7.46%,将HL降低了62.04%,所有标签分类指标平均提升超过3%。AUC值也高于传统模型。这表明HMNet在判别复杂重金属胁迫类型方面具有显著优势。
    • 积累量预测: HMNet在定量预测方面取得了显著提升。其预测结果散点图中样本点更紧密地分布在对角线附近。与LS-SVM相比,HMNet将平均预测均方根误差(RMSEP)降低了30.61%,将平均RPD提高了53.59%。批归一化和Dropout策略有效缓解了过拟合,校准集与预测集性能差距缩小。
      • Zn预测效果最佳: 无论在AE还是NAE中,Zn的预测结果都是最好的(R²p > 0.93, RPD > 3.7),表明模型对Zn积累量的传感潜力巨大。
      • Cd和Pb预测效果良好: 对于AE中的Cd,R²p为0.895,RPD为3.00;对于Pb,在AE和NAE中的RPD分别达到2.67和2.82。这些RPD值(均大于2.5)表明模型的定量预测能力令人满意,具备实际应用潜力。
  3. 综合方法验证结果: 对382个未知样本的测试表明,ENet生态型识别完全正确。随后经HMNet模型预测,重金属胁迫判别的EMR超过91%,HL低于0.036,各项分类指标大多超过95%。重金属定量预测结果与上述HMNet单独测试结果一致,Zn的预测RPD最高(AE: 3.56, NAE: 3.02),Cd和Pb的RPD也均超过2.4,进一步验证了所提方法的有效性和鲁棒性。

结论与意义 本研究成功开发并验证了一种结合高光谱成像与多任务深度学习的新方法,用于快速、无损、同时地鉴定东南景天的超富集生态型、判别其所受重金属胁迫类型、以及定量预测其叶片中Cd、Zn、Pb的积累量。该方法的核心——自设计的HMNet多任务网络——在各项指标上均显著优于传统机器学习模型,有效减少了过拟合,提高了预测精度和泛化能力。

科学价值与应用价值: * 方法论创新: 首次将多任务深度学习架构引入植物重金属胁迫与积累的光谱分析中,实现了单一模型同时完成分类和回归多个复杂任务,为植物表型组学和环境监测提供了新的高效分析范式。 * 技术流程革新: 建立了一个从快速光谱采集到自动化智能分析的完整技术流程,将传统需要数小时至数天的化学分析过程,缩短至几分钟内即可完成初步判断,极大提升了超富集植物筛选和重金属污染监测的效率和通量。 * 应用潜力巨大: 该方法为高通量筛选重金属超富集植物提供了强有力的工具。随着更多植物光谱数据的积累和模型的进一步训练与迁移,该方法有望集成到遥感平台或无人机上,实现大范围、实时、现场化的超富集植物发现和重金属污染监测,对推动植物修复技术的实际应用和环境保护具有重要价值。

研究亮点 1. 研究目标创新: 首次系统性地将高光谱成像与深度学习结合,旨在“一站式”解决超富集植物筛选中的生态型鉴定、胁迫判别和定量预测三个关键问题,目标明确且具有高度集成性。 2. 方法学显著创新: 自主设计了浅层网络ENet和特别是多任务网络HMNet。HMNet通过共享层提取共性特征,再通过特定任务分支进行精细化预测,这种结构是本研究最核心的贡献,显著提升了模型性能。 3. 卓越的实验结果: 模型在各项任务上均达到了很高的精度。生态型识别达到100%准确率;重金属胁迫判别EMR超过91%;重金属定量预测,尤其是对Zn的预测(RPD > 3.5),达到了优异的水平,超越了多数文献报道的基于传统方法的结果。 4. 完整的验证流程: 研究不仅对比了模型性能,还模拟了实际应用场景,用一批“未知”样本测试了从生态型识别到重金属预测的完整流程,证明了方法的可行性与可靠性。 5. 明确的转化前景: 论文明确指出了该技术向实地、高通量、遥感监测方向发展的潜力,将实验室研究与实际应用需求紧密衔接。

其他有价值内容 研究还讨论了模型的改进空间,例如指出由于实验设计中是将多个叶片的混合样作为一个参考值,而建模时每个叶片光谱作为一个样本,导致预测值围绕单个参考值散布。未来若能测定更多单叶片的参考值,将为模型提供更精确的监督信号,有望进一步提升模型的准确性和鲁棒性。此外,研究中对不同重金属预测性能的差异(Zn最佳,Cd、Pb次之)也为后续探究光谱响应与不同重金属生理毒害机制之间的关系提供了线索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com