基于信息融合与VISS-GOA-SVM算法的生菜镉胁迫光谱分类研究
一、 研究团队与发表信息
本研究由江苏大学电气信息工程学院的周鑫、孙俊、田岩、吴小红、戴春霞以及北京农业信息技术研究中心的李斌共同完成。该研究成果以题为”Spectral classification of lettuce cadmium stress based on information fusion and VISS-GOA-SVM algorithm”的学术论文形式,发表于《Journal of Food Process Engineering》期刊,于2019年正式发表(文章在线发表日期为2019年4月16日,期刊卷期为2019年42卷,文章编号e13085)。
二、 研究背景与目标
本研究属于农业信息技术与食品安全检测的交叉领域,具体聚焦于利用高光谱成像技术进行农作物重金属污染的无损、快速检测。镉(Cd)是一种毒性较强的重金属,通过受污染的土壤或水源进入生菜等蔬菜,并在其中积累。人体摄入镉污染的蔬菜后,镉难以排出,易在肝肾中蓄积,长期可导致肾功能障碍、肝损伤乃至骨质疏松等严重健康问题。因此,对蔬菜中的镉污染进行有效监测至关重要。
传统的重金属检测方法,如原子荧光光谱法、电感耦合等离子体质谱法等,虽然准确度高,但存在样品破坏、前处理复杂、耗时耗力、无法实现快速现场检测等缺点。近年来,高光谱成像技术作为一种快速、无损的检测手段,在农产品品质检测方面展现出巨大潜力。该技术能够同时获取样本的空间信息和连续的光谱信息,从而反映其内部化学成分和物理结构的变化。已有研究表明,植物在重金属胁迫下,其叶片的光谱反射特性会因叶绿素含量、细胞结构、水分状态等生理生化参数的改变而发生变化。
然而,如何从海量的高光谱数据中有效提取与镉胁迫相关的特征信息,并建立高精度、高鲁棒性的分类模型,是技术应用的关键挑战。本研究旨在探索一种结合数据级信息融合与智能优化算法的光谱分析新方法,以实现对生菜叶片不同梯度镉胁迫水平的准确、快速、无损鉴别。具体目标包括:1)应用可见-近红外(Vis-NIR)高光谱成像技术获取不同镉胁迫水平下生菜叶片的光谱信息;2)研究多种光谱预处理与数据融合策略对模型性能的影响;3)比较不同变量选择方法的有效性;4)引入蚱蜢优化算法(GOA)优化支持向量机(SVM)的关键参数,构建VISS-GOA-SVM分类模型,并评估其性能。
三、 详细研究流程与方法
本研究流程严谨,主要包括样本制备、光谱采集、数据预处理与融合、特征波长选择、模型建立与优化等步骤。
1. 样本制备与光谱采集: 研究选用意大利一年生抽薹生菜种子,在江苏大学现代农业装备实验室的Venlo型温室中进行培养。从苗期(4-5片叶)开始,使用不同浓度的氯化镉(CdCl₂)水溶液(0.01 mg/L, 0.1 mg/L, 0.5 mg/L, 2 mg/L)进行灌溉,以模拟四个梯度的镉胁迫环境,同时保证其他营养元素正常供应。通过化学检测(参照国标GB 5009.15-2014)确认,对应生菜叶片中的镉残留浓度分别为0.18 mg/kg(低于国标)、0.45 mg/kg(轻微超标)、1.2 mg/kg(中度超标)和2.2 mg/kg(严重超标)。在莲座期,从每棵生菜上随机摘取一片无病害的完整叶片。每个胁迫梯度制备140个叶片样本,共计560个样本。样本采集后立即置于-7°C的植物保鲜盒中保存,并迅速运至300米外的实验室进行光谱采集。
光谱采集使用可见-近红外高光谱成像系统。该系统核心包括成像光谱仪(光谱范围431.05-962.45 nm,共618个波段,光谱分辨率2.8 nm)、两个150W卤素灯光源、暗箱和电动位移平台。采集前进行了标准白板和黑背景校正以减小误差。对每个样本,选取叶片上85×85像素的区域(避开主叶脉)作为感兴趣区域(ROI),并计算该区域内所有像素的平均光谱值作为该样本的代表光谱。
2. 光谱数据预处理与信息融合: 原始光谱数据除包含样本本身信息外,还混杂有仪器噪声、杂散光等干扰。为提高信噪比并突出有效信息,研究采用了三种预处理方法:小波变换(WT)、一阶导数(1st Der)和二阶导数(2nd Der)。小波变换选用db6小波基,通过奇异值分析确定最佳分解层数为4,并提取第4层的低频近似分量,以去除高频噪声并保留主要光谱特征。一阶和二阶导数处理则能有效消除基线漂移、增强光谱细节(如红边特征),并区分重叠峰。
本研究的一个关键创新点是采用了数据级信息融合策略。具体而言,将经过WT、1st Der、2nd Der预处理后得到的三组光谱数据(分别记为数据集R、T、D)进行两两组合或三者组合,生成新的融合数据层。例如,RT代表R和T的融合,RTD代表R、T、D三者的融合。这种融合旨在综合利用不同预处理方法所强调的互补信息,以期构建更全面、更稳健的输入特征集。
3. 特征波长选择(降维): 高光谱数据波段多、冗余度高。为降低数据维度、提高建模效率与精度,研究对比了三种特征选择算法:主成分分析(PCA)、迭代保留信息变量法(IRIV)和变量迭代空间收缩法(VISS)。PCA是一种基于方差最大化的线性降维方法。IRIV和VISS则是更先进的变量选择方法,旨在从全波段中筛选出与分类目标最相关、信息最丰富的特征波长子集,剔除不相关和干扰变量。
4. 分类模型建立与优化: 研究采用支持向量机(SVM)作为分类器。SVM的性能高度依赖于其参数设置,特别是惩罚参数C、不敏感损失参数ε和核函数参数γ。传统方法多依赖经验或试错法,难以获得最优参数。为此,本研究引入了蚱蜢优化算法(GOA),这是一种新兴的群体智能优化算法,被证明在求解优化问题上比遗传算法(GA)、粒子群算法(PSO)等具有更好的性能。研究构建了GOA-SVM模型,其工作流程如下:首先,对样本数据进行归一化,并采用蒙特卡洛交叉验证(MCCV)方法从560个总样本中随机选取420个作为训练集,140个作为预测集,此过程重复500次以确保稳定性。然后,初始化GOA参数(最大迭代次数N=150,种群规模M=50),每个蚱蜢个体的位置由一组(C, ε, γ)参数构成。GOA通过迭代更新种群位置,以SVM在训练集上的分类准确率作为适应度函数,不断搜索能使适应度值最大化的最优参数组合。最后,使用找到的最优参数构建最终的SVM分类模型进行评估。
四、 主要研究结果与分析
1. 光谱特征分析: 原始ROI光谱曲线显示,不同镉胁迫水平的生菜叶片在可见-近红外区域的光谱反射率存在差异。经过小波变换预处理后的第四层低频光谱(图3)清晰表明,在550 nm(绿峰)和765 nm附近,不同胁迫水平的样本间光谱差异尤为明显。550 nm处的反射峰与叶片叶绿素含量密切相关,而765 nm处的次峰可能与色素(如叶绿素a)及化学键(如C-H, O-H, N-H)的吸收峰相互作用有关。这初步证实了镉胁迫影响了生菜的生理状态(如叶绿素合成),进而改变了其光学特性。一阶和二阶导数光谱(图4)则进一步凸显了红边(680-760 nm附近)区域的特征,该区域是植被光谱中对生物化学参数变化最敏感的区域之一。
2. 不同特征选择与SVM建模结果对比: 如表1所示,分别使用PCA、IRIV和VISS对单数据层(R, T, D)及融合数据层(RT, RD, TD, RTD)进行特征选择后,再建立SVM模型。结果显示: * 特征选择方法比较:在所有数据类型上,VISS筛选特征后建立的SVM模型,其预测集准确率普遍高于PCA和IRIV方法。这表明VISS在选取与镉胁迫分类最相关的特征波长方面更具优势。 * 预处理方法比较:对于单数据层,经二阶导数(D)处理的数据,在VISS特征选择后取得了最佳的单数据层SVM模型性能(训练集99.05%,预测集90.71%)。 * 信息融合效果:数据融合显著提升了模型性能。无论是哪种特征选择方法,融合数据层(RT, RD, TD, RTD)建立的模型,其预测集准确率均高于对应的单数据层模型。这验证了信息融合能有效整合互补信息,提升分类能力。其中,RTD(三种预处理数据融合)结合VISS-SVM模型取得了最佳效果,训练集和预测集准确率分别达到99.29%和95%。
然而,表1中的结果也显示,部分模型(尤其是训练集准确率接近100%而预测集较低时)存在过拟合现象,即模型对训练数据拟合过度,泛化到新数据(预测集)的能力下降。
3. GOA优化后的模型性能提升: 为缓解过拟合、进一步提升模型鲁棒性,研究引入了GOA对SVM参数进行优化。结果如表2所示。与表1对比发现,经过GOA优化后,虽然部分模型的训练集准确率略有下降,但预测集的准确率普遍得到了提升,模型过拟合程度得到有效控制。优化过程平均仅增加了约6.5秒的计算时间,代价很小。
其中,RTD-VISS-GOA-SVM模型表现最为突出。经过GOA优化,该模型找到了最优参数组合(C=19.9831, ε=0.1448, γ=0.004)。其训练集准确率达到100%,预测集准确率进一步提升至98.57%。图5展示了该模型对预测集样本的分类结果,显示仅有极少数样本被误判,分类效果优异。图6的GOA参数优化过程图显示,随着迭代次数增加,模型的平均绝对百分比误差(MAPE)持续下降并趋于稳定,说明了GOA优化过程的有效性和收敛性。
五、 研究结论与价值
本研究成功地将可见-近红外高光谱成像技术、数据级信息融合策略与智能优化算法相结合,建立了一种高效、准确的生菜叶片镉胁迫梯度无损鉴别方法。
主要结论如下: 1. Vis-NIR高光谱技术能够有效捕捉不同镉胁迫水平下生菜叶片的光谱差异,具备无损检测的潜力。 2. 数据级信息融合(特别是WT、1st Der、2nd Der三者的融合)能显著提高分类模型的性能,证明了综合利用不同预处理信息的重要性。 3. 变量迭代空间收缩法(VISS)在从高维光谱数据中选择关键特征波长方面,优于传统的主成分分析(PCA)和迭代保留信息变量法(IRIV)。 4. 引入蚱蜢优化算法(GOA)对支持向量机(SVM)的参数进行自动优化,能够有效提升模型的泛化能力和预测精度,缓解过拟合问题。 5. 最终构建的RTD-VISS-GOA-SVM模型在生菜镉胁迫梯度分类中取得了最佳性能,校正集和预测集准确率分别达到100%和98.57%,为生菜重金属污染的无损、快速筛查提供了一种强有力的新方法。
研究价值: * 科学价值:本研究为高光谱数据分析和模式识别提供了新的技术思路,即通过“多预处理信息融合 + 先进变量选择 + 智能参数优化”的组合策略来构建高性能分类模型。验证了GOA算法在光谱分析领域参数优化中的有效性。 * 应用价值:该研究为农产品质量安全监管,特别是蔬菜重金属污染的风险筛查,提供了一种快速、无损、可在线或现场应用的潜在技术方案。相较于传统化学方法,大大缩短了检测时间,且不破坏样品,有利于实现大批量样本的快速初筛。
六、 研究亮点
七、 其他有价值内容
研究在讨论部分也指出了未来工作的方向:一是考虑将分类问题推进到定量分析,即直接预测镉胁迫的具体浓度值;二是拓展研究范围,考虑其他重金属种类的胁迫问题;三是致力于建立检测精度更高、模型复杂度更低的通用判别模型。这些展望为后续研究指明了方向。此外,研究得到了国家自然科学基金、江苏省高校优势学科建设工程、江苏省“六大人才高峰”项目等多个基金的支持,体现了该研究课题的重要性和受关注程度。