分享自:

近红外高光谱成像技术结合深度卷积生成对抗网络预测单粒玉米的含油量

期刊:Food ChemistryDOI:10.1016/j.foodchem.2021.131047

类型a

主要作者与研究机构及发表信息
该研究的主要作者为Liu Zhang、Yaqian Wang、Yaoguang Wei和Dong An,他们均来自中国农业大学信息与电气工程学院以及农业部农业信息技术获取技术重点实验室。这篇论文题为“Near-infrared hyperspectral imaging technology combined with deep convolutional generative adversarial network to predict oil content of single maize kernel”,于2021年9月3日在线发表在《Food Chemistry》期刊上,并于2022年正式刊出。

学术背景
本研究属于食品科学与农业化学领域,旨在开发一种快速、无损预测单个玉米籽粒油脂含量的方法。玉米(Zea mays L.)是世界上广泛种植的重要粮食作物之一,其油脂含量直接影响玉米油的提取效率。传统的油脂含量检测方法如索氏提取法或核磁共振技术(NMR),虽然准确但耗时、昂贵且需要大量化学试剂,对环境和操作人员可能造成危害。近红外光谱技术(NIRS)是一种成熟的非破坏性检测技术,但其数据采集通常仅限于样本的一个或几个点,可能忽略样本的空间分布信息。高光谱成像技术(HSI)结合了光谱技术和成像技术的优势,可以同时分析样本的化学信息和空间图像信息,从而克服NIRS的局限性。然而,构建稳定可靠的回归模型需要大量样本数据,而实际情况下样本数据往往有限。因此,本研究提出了一种基于深度卷积生成对抗网络(DCGAN)的数据增强方法,以解决样本数据不足的问题。

研究流程
本研究包括以下主要步骤:

  1. 样本收集与准备
    研究对象为两种玉米品种——郑单958和农大616,由国家玉米改良中心提供。每种玉米分别选取100颗低油脂含量和100颗高油脂含量的籽粒,共400颗样本。这些玉米种植在同一试验田中,并于2019年同时收获。样本水分含量约为6%,并储存在干燥通风环境中。

  2. 高光谱图像采集与校正
    使用Zolix公司生产的推扫式NIR-HSI系统采集高光谱图像。系统光谱范围为866.4–1701.0 nm,包含254个波长,光谱分辨率为5 nm。采集过程中,将玉米胚侧朝上放置在低反射率黑板上,通过传送带移动完成高光谱立方体数据的采集。采集后的原始图像需进行黑白校正以减少暗电流和其他噪声的影响。

  3. 油脂含量测量
    使用上海纽曼电子技术有限公司的NM120-015V-I NMR成像分析仪测量所有玉米籽粒的真实油脂含量。每个籽粒测量两次,取平均值作为真实油脂含量。

  4. 光谱数据提取与预处理
    从校正后的高光谱图像中提取光谱数据。首先,通过灰度图像构造掩膜,使用阈值分割算法分离玉米籽粒与背景。然后,定义每个籽粒的整体区域为感兴趣区域(ROI),计算ROI内所有像素的平均反射率作为该籽粒的光谱值。由于光学设备的影响,原始光谱两端存在明显噪声,因此保留918.1–1650.6 nm范围内的高质量光谱数据(共223个波长)。此外,对原始光谱数据进行最大最小归一化处理以提高后续模型收敛速度。

  5. 基于DCGAN的数据增强
    DCGAN是一种深度学习模型,由生成器(G)和判别器(D)组成。在训练过程中,G的目标是生成尽可能逼真的假数据以欺骗D,而D的目标是尽可能区分真实数据与假数据。研究将每个玉米籽粒的光谱矩阵和油脂含量值组合成一维信号曲线,使用DCGAN生成假数据。训练过程中,批量大小设置为5,迭代次数设置为10,000次。

  6. 回归模型建立与评估
    使用偏最小二乘回归(PLSR)和支持向量回归(SVR)两种常用机器学习模型预测玉米籽粒的油脂含量。通过交叉验证方法确定最佳模型参数,并使用决定系数(R²)和均方根误差(RMSE)评估模型性能。

主要结果
1. 光谱数据分析
在918.1–1650.6 nm范围内,玉米籽粒的光谱曲线显示出三个明显的吸收峰,分别位于约970 nm、1200 nm和1450 nm处。这些吸收峰分别与水分子的O-H伸缩振动、脂肪成分的C-H伸缩振动以及H₂O的O-H伸缩振动相关。

  1. DCGAN生成数据的质量分析
    DCGAN生成的假数据在经过多次迭代后逐渐接近真实数据。当迭代次数达到4000次时,生成数据与真实数据非常相似。通过箱线图分析发现,生成数据的油脂含量分布范围合理,且平均值和标准差与真实数据非常接近,表明生成数据具有较高的可信度。

  2. 数据增强后的建模结果
    数据增强显著提高了PLSR和SVR模型的预测性能。对于郑单958,PLSR模型的R²提高了3.47%,RMSE降低了12.78%;SVR模型的R²提高了1.69%,RMSE降低了6.77%。对于农大616,PLSR模型的R²提高了3.50%,RMSE降低了12.03%;SVR模型的R²提高了5.34%,RMSE降低了15.29%。

结论与意义
本研究表明,基于DCGAN的数据增强方法可以有效扩展样本数据集,从而提高回归模型的泛化能力。这种方法不仅解决了样本数据不足的问题,还为食品工业中快速、无损预测单个玉米籽粒油脂含量提供了新思路。此外,该方法可推广至其他化学成分的预测问题,为化学研究人员提供了重要参考。

研究亮点
1. 首次将DCGAN应用于回归问题,成功扩展了光谱数据和油脂含量数据。
2. 结合高光谱成像技术和深度学习方法,实现了单个玉米籽粒油脂含量的快速无损预测。
3. 数据增强显著提高了PLSR和SVR模型的预测性能,为小样本条件下的回归问题提供了新解决方案。

其他有价值内容
研究还探讨了样本数量对回归模型性能的影响,指出样本数量过多可能导致数据冲突和干扰,反而降低模型性能。此外,研究强调了生成数据多样性的重要性,并通过实验验证了DCGAN在扩展数据分布方面的优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com