分享自:

基于一维卷积自编码器和近红外光谱的玉米籽粒蛋白质、淀粉、油脂及水分含量检测

期刊:PeerJ Computer ScienceDOI:10.7717/peerj-cs.1266

基于一维卷积自编码器和近红外光谱的玉米籽粒营养成分检测研究

作者及发表信息

本研究由土耳其塞尔柱大学(Selcuk University)技术学院的Ozcan Cataltas和Kemal Tutuncu共同完成,于2023年3月9日发表在《PeerJ Computer Science》期刊上,文章DOI为10.7717/peerj-cs.1266。

学术背景

本研究属于食品科学与人工智能交叉领域,聚焦于谷物质量分析的近红外光谱(Near-Infrared Spectroscopy, NIRS)技术。近红外光谱因其快速、低成本和非破坏性检测优势,已成为食品工业中广泛应用的分析方法,特别适用于谷物产品、水果蔬菜新鲜度、食品掺假等多个领域的质量参数检测。

传统近红外光谱分析面临两个主要挑战:一是预处理方法通常需要反复试验确定;二是常用化学计量学方法(如偏最小二乘回归PLSR、主成分回归PCR)难以有效捕捉光谱数据中的非线性关系。近年来,深度学习算法与近红外光谱的结合为该领域提供了新的研究视角。本研究旨在开发一种结合一维卷积自编码器(1D-CAE)和多元线性回归(MLR)的新方法,用于分析玉米籽粒中蛋白质、淀粉、油脂和水分含量,解决传统方法的局限性。

研究流程与方法

数据集描述

研究采用广泛使用的corn数据集,包含80个玉米籽粒样本在三种不同设备(m5、mp5和mp6)上测量的光谱数据,波长范围为1100-2498nm,间隔2nm。每个样本包含水分、油脂、蛋白质和淀粉四种成分的参考值。数据集按60:20比例随机分为校准集和预测集。

一维卷积自编码器模型构建

研究团队设计了一个特殊的一维卷积自编码器架构,包含编码器和解码器两部分: - 编码器子模型:2个卷积层(分别含16和32个滤波器)、2个最大池化层和2个全连接层 - 解码器子模型:3个反卷积层、2个上采样层和1个全连接层 使用双曲正切(tanh)激活函数和Adam优化器,学习率设为0.001。通过随机搜索确定最佳超参数,包括滤波器数量、潜在变量数量等。最终确定32个潜在变量作为光谱的低维表示。

模型训练采用无监督学习方式,仅使用光谱数据而不使用参考值。训练过程中采用早停策略防止过拟合,当验证损失连续两个epoch增加时停止训练。

多元线性回归建模

从训练好的自编码器模型中提取32个潜在变量,针对每个目标成分(水分、油脂、蛋白质、淀粉)分别建立多元线性回归模型。这些潜在变量作为输入特征,参考值作为输出目标。

对比实验设计

为评估提出方法的性能,研究设置了与传统化学计量学方法的对比实验: 1. 偏最小二乘回归(PLSR)和主成分回归(PCR)作为基线方法 2. 对原始光谱应用四种预处理方法:均值散射校正(MSC)、标准正态变量(SNV)、Savitzky-Golay滤波(SG)和均值中心化(MC) 3. 潜在变量和主成分数量优化为1-10之间的最佳值 4. 使用5折交叉验证确定最优参数

性能评估指标

采用三个指标评估模型性能: 1. 决定系数(R²):衡量模型解释变量变异的比例 2. 均方根误差(RMSE):残差的标准差 3. 均方根百分比误差(RMSPE):特别用于评估自编码器重建光谱的性能

主要研究结果

光谱重建性能

一维卷积自编码器在光谱重建方面表现出色: - 校准集平均RMSPE为1.90% - 预测集平均RMSPE为2.27% - 成功将700个特征的光谱压缩为仅32个潜在变量

图5展示了三种设备上输入光谱与重建光谱的对比,显示模型能够准确捕捉光谱的主要特征。

成分预测性能

提出的1D-CAE+MLR方法在不同数据集上表现出差异化性能:

m5数据集结果: - 油脂和淀粉预测表现最佳(R²分别为0.9632和0.9359) - 水分和蛋白质预测略逊于最佳PLSR组合

mp5数据集结果: - 所有目标在校准集中R²最高 - 油脂参数R²提升显著(比传统方法高20.9%)

mp6数据集结果: - 在所有目标上表现优于传统方法 - 传统方法对油脂和淀粉参数无法建立可行模型(R²<0.7)

综合比较分析

与传统方法相比,1D-CAE+MLR方法显示出多方面优势: 1. 消除预处理需求:传统方法需要反复试验确定预处理方法 2. 设备独立性:在不同设备采集的光谱上表现稳定 3. 非线性关系捕捉:优于线性化学计量学方法 4. 特征压缩能力:将700维光谱有效降维至32个潜在变量

特别在油脂和淀粉参数预测上,新方法优势明显: - 油脂预测:比最佳传统方法R²提高19.43%(预测集) - 淀粉预测:比PCR方法平均R²提高63.16%

研究结论与价值

本研究成功开发了一种结合一维卷积自编码器和多元线性回归的近红外光谱分析新方法,用于玉米籽粒营养成分检测。主要科学价值体现在:

  1. 方法学创新:首次将1D-CAE应用于谷物光谱分析,提供了一种无需预处理的端到端解决方案
  2. 性能提升:在多个参数特别是油脂和淀粉预测上显著优于传统方法
  3. 设备通用性:在不同设备采集的光谱上表现稳定,缓解了仪器依赖性问题
  4. 特征提取:实现了高效的光谱特征压缩和抽象表示

应用价值方面,该方法可为谷物质量快速检测提供更准确、更稳定的技术方案,适用于食品工业质量控制、农产品分级等领域。研究还表明深度学习模型在光谱分析中具有巨大潜力,尤其是处理非线性关系和设备差异方面。

研究亮点

  1. 创新模型架构:设计专门针对近红外光谱的一维卷积自编码器,优化滤波器数量和网络深度
  2. 无监督特征学习:通过无监督方式学习光谱的本质特征,不依赖成分参考值
  3. 多设备验证:在三种不同设备数据上验证方法有效性,证明设备独立性
  4. 综合性能对比:系统比较多种预处理方法和回归算法组合,提供全面评估
  5. 实用平衡:在保持高精度的同时实现特征大幅降维(700→32),利于实际应用

其他有价值内容

研究还发现一些有意义的现象: 1. 化学计量学方法的性能高度依赖于特定光谱,同一方法在不同设备数据上表现差异大 2. 深度学习模型在小样本情况下仍能取得良好效果(尽管样本量有限可能影响模型充分训练) 3. 潜在变量数量的选择对模型性能有显著影响,32个神经元是本研究中最佳平衡点

作者在GitHub上公开了原始数据和代码(https://github.com/ozcan412/1d-cae_mlr),促进方法复现和进一步研究。未来工作可探索该方法在校准转移(calibration transfer)中的应用,以进一步解决近红外光谱分析中的仪器差异问题。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com