本研究由土耳其塞尔柱大学(Selcuk University)技术学院的Ozcan Cataltas和Kemal Tutuncu共同完成,于2023年3月9日发表在《PeerJ Computer Science》期刊上,文章DOI为10.7717/peerj-cs.1266。
本研究属于食品科学与人工智能交叉领域,聚焦于谷物质量分析的近红外光谱(Near-Infrared Spectroscopy, NIRS)技术。近红外光谱因其快速、低成本和非破坏性检测优势,已成为食品工业中广泛应用的分析方法,特别适用于谷物产品、水果蔬菜新鲜度、食品掺假等多个领域的质量参数检测。
传统近红外光谱分析面临两个主要挑战:一是预处理方法通常需要反复试验确定;二是常用化学计量学方法(如偏最小二乘回归PLSR、主成分回归PCR)难以有效捕捉光谱数据中的非线性关系。近年来,深度学习算法与近红外光谱的结合为该领域提供了新的研究视角。本研究旨在开发一种结合一维卷积自编码器(1D-CAE)和多元线性回归(MLR)的新方法,用于分析玉米籽粒中蛋白质、淀粉、油脂和水分含量,解决传统方法的局限性。
研究采用广泛使用的corn数据集,包含80个玉米籽粒样本在三种不同设备(m5、mp5和mp6)上测量的光谱数据,波长范围为1100-2498nm,间隔2nm。每个样本包含水分、油脂、蛋白质和淀粉四种成分的参考值。数据集按60:20比例随机分为校准集和预测集。
研究团队设计了一个特殊的一维卷积自编码器架构,包含编码器和解码器两部分: - 编码器子模型:2个卷积层(分别含16和32个滤波器)、2个最大池化层和2个全连接层 - 解码器子模型:3个反卷积层、2个上采样层和1个全连接层 使用双曲正切(tanh)激活函数和Adam优化器,学习率设为0.001。通过随机搜索确定最佳超参数,包括滤波器数量、潜在变量数量等。最终确定32个潜在变量作为光谱的低维表示。
模型训练采用无监督学习方式,仅使用光谱数据而不使用参考值。训练过程中采用早停策略防止过拟合,当验证损失连续两个epoch增加时停止训练。
从训练好的自编码器模型中提取32个潜在变量,针对每个目标成分(水分、油脂、蛋白质、淀粉)分别建立多元线性回归模型。这些潜在变量作为输入特征,参考值作为输出目标。
为评估提出方法的性能,研究设置了与传统化学计量学方法的对比实验: 1. 偏最小二乘回归(PLSR)和主成分回归(PCR)作为基线方法 2. 对原始光谱应用四种预处理方法:均值散射校正(MSC)、标准正态变量(SNV)、Savitzky-Golay滤波(SG)和均值中心化(MC) 3. 潜在变量和主成分数量优化为1-10之间的最佳值 4. 使用5折交叉验证确定最优参数
采用三个指标评估模型性能: 1. 决定系数(R²):衡量模型解释变量变异的比例 2. 均方根误差(RMSE):残差的标准差 3. 均方根百分比误差(RMSPE):特别用于评估自编码器重建光谱的性能
一维卷积自编码器在光谱重建方面表现出色: - 校准集平均RMSPE为1.90% - 预测集平均RMSPE为2.27% - 成功将700个特征的光谱压缩为仅32个潜在变量
图5展示了三种设备上输入光谱与重建光谱的对比,显示模型能够准确捕捉光谱的主要特征。
提出的1D-CAE+MLR方法在不同数据集上表现出差异化性能:
m5数据集结果: - 油脂和淀粉预测表现最佳(R²分别为0.9632和0.9359) - 水分和蛋白质预测略逊于最佳PLSR组合
mp5数据集结果: - 所有目标在校准集中R²最高 - 油脂参数R²提升显著(比传统方法高20.9%)
mp6数据集结果: - 在所有目标上表现优于传统方法 - 传统方法对油脂和淀粉参数无法建立可行模型(R²<0.7)
与传统方法相比,1D-CAE+MLR方法显示出多方面优势: 1. 消除预处理需求:传统方法需要反复试验确定预处理方法 2. 设备独立性:在不同设备采集的光谱上表现稳定 3. 非线性关系捕捉:优于线性化学计量学方法 4. 特征压缩能力:将700维光谱有效降维至32个潜在变量
特别在油脂和淀粉参数预测上,新方法优势明显: - 油脂预测:比最佳传统方法R²提高19.43%(预测集) - 淀粉预测:比PCR方法平均R²提高63.16%
本研究成功开发了一种结合一维卷积自编码器和多元线性回归的近红外光谱分析新方法,用于玉米籽粒营养成分检测。主要科学价值体现在:
应用价值方面,该方法可为谷物质量快速检测提供更准确、更稳定的技术方案,适用于食品工业质量控制、农产品分级等领域。研究还表明深度学习模型在光谱分析中具有巨大潜力,尤其是处理非线性关系和设备差异方面。
研究还发现一些有意义的现象: 1. 化学计量学方法的性能高度依赖于特定光谱,同一方法在不同设备数据上表现差异大 2. 深度学习模型在小样本情况下仍能取得良好效果(尽管样本量有限可能影响模型充分训练) 3. 潜在变量数量的选择对模型性能有显著影响,32个神经元是本研究中最佳平衡点
作者在GitHub上公开了原始数据和代码(https://github.com/ozcan412/1d-cae_mlr),促进方法复现和进一步研究。未来工作可探索该方法在校准转移(calibration transfer)中的应用,以进一步解决近红外光谱分析中的仪器差异问题。