分享自:

基于近红外光谱和a-CARS-PLS的玉米蛋白质含量测定

期刊:Food Chemistry: XDOI:10.1016/j.fochx.2023.100666

本研究由Xiaohong Wu(江苏大学电气与信息工程学院)、Shupeng Zeng(江苏大学电气与信息工程学院)、Haijun Fu(江苏大学电气与信息工程学院)、Bin Wu(滁州职业技术学院信息工程系)、Haoxiang Zhou(浙江大学台州研究院电气与控制工程研究所)及Chunxia Dai(江苏大学电气与信息工程学院)共同完成,发表于2023年3月30日的《Food Chemistry: X》期刊(Volume 18, Article 100666)。研究聚焦农业与食品分析领域,旨在通过近红外光谱(Near-Infrared Spectroscopy, NIR)结合新型波长选择算法,实现玉米蛋白质含量的快速无损检测。

学术背景

玉米作为全球产量最高的谷物(2020/21年度达12.07亿吨),其蛋白质含量直接影响营养品质与加工性能。传统化学检测方法耗时且破坏样本,而近红外光谱技术因其高效、环保的特点,近年来广泛应用于食品成分分析。然而,NIR光谱的高维数据(本研究含700个波长点)存在大量冗余变量,需通过特征波长选择提升模型精度。现有算法如竞争性自适应重加权采样(Competitive Adaptive Reweighted Sampling, CARS)和遗传算法(Genetic Algorithm, GA)虽能降维,但易受高共线性干扰或陷入局部最优。为此,本研究提出锚点竞争性自适应重加权采样(Anchor-CARS, A-CARS),结合蒙特卡洛协同区间偏最小二乘法(Monte Carlo Synergy Interval PLS, MC-SiPLS),优化变量筛选流程。

研究流程与方法

  1. 数据准备

    • 样本与光谱采集:使用80个玉米样本,光谱范围1100–2498 nm(间隔2 nm,共700个波长点),数据来自Cargill公司的M5仪器。按Kennard-Stone算法划分校准集(60样本)与预测集(20样本),确保模型泛化性。
  2. 算法开发与优化

    • MC-SiPLS预处理:通过蒙特卡洛方法随机生成不等宽区间,避免传统SiPLS固定区间划分的局限性。每次迭代选择RMSE最小的区间组合,直至合并后的区间收敛(公式1-2)。
    • A-CARS核心步骤:以MC-SiPLS筛选的区间作为“锚点”,在锚定区间内应用CARS进一步选择变量。CARS基于达尔文进化理论,通过蒙特卡洛采样、指数衰减函数(EDF)和自适应重加权(ARF)筛选变量,最终保留23个特征波长(图1)。
  3. 模型对比与验证

    • 对比方法:包括全波段PLS、移动窗口PLS(MWPLS)、SiPLS、GA-PLS、随机蛙跳PLS(Random Frog PLS)及CARS-PLS。
    • 评估指标:校准集与预测集的均方根误差(RMSE)、决定系数(R²)和偏差(Bias)。

主要结果

  1. 模型性能

    • A-CARS-PLS表现最优:校准集RMSEcv=0.0336、R²c=0.9951;预测集RMSEp=0.0688、R²p=0.9820(表1)。其预测结果最接近实测值(图4),且显著优于其他方法(如全波段PLS预测集R²p仅0.9070)。
    • 变量筛选:A-CARS将700维数据降至23维,集中在1698–1898 nm和2098–2298 nm波段(图3),对应蛋白质C-H、O-H键的伸缩振动特征。
  2. 关键发现

    • 区间选择优势:MC-SiPLS筛选的区间(如2080–2218 nm)覆盖了MWPLS和SiPLS的选择范围(图2),但通过非等宽划分避免了无关变量干扰。
    • 抗过拟合能力:A-CARS在预测集的R²p较校准集仅下降1.3%,而GA-PLS和随机蛙跳PLS分别下降4.5%和7.9%,表明其稳定性更强。

结论与价值

  1. 科学意义

    • 提出A-CARS算法,首次将蒙特卡洛随机区间划分与CARS结合,解决了高共线性光谱数据的变量选择难题。
    • 明确玉米蛋白质的23个特征波长,并建立线性回归方程(公式6),为便携式NIR设备开发提供理论依据。
  2. 应用前景

    • 可集成于嵌入式系统,降低检测成本;推动玉米品质的大规模无损监测。作者建议未来结合便携设备验证实际场景性能。

研究亮点

  1. 方法创新性:A-CARS通过锚点约束提升CARS的 interpretability,MC-SiPLS的随机区间划分避免局部最优。
  2. 技术实用性:23维模型大幅降低数据复杂度,适合工业化应用。
  3. 跨学科价值:为其他农产品成分检测(如淀粉、水分)提供算法参考。

其他价值

研究获江苏省高校优先发展项目(PAPD)、滁州职业技术学院科研基金等支持,数据公开于Eigenvector网站,增强可重复性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com