本研究由美国伊利诺伊大学厄巴纳-香槟分校农业与生物工程系的Ali Fatemi、Vijay Singh和Mohammed Kamruzzaman*(通讯作者)团队完成,发表于2022年2月的《Food Chemistry》第383卷(文章编号132442)。研究聚焦近红外光谱(NIR spectroscopy)技术在玉米主要化学成分预测中的应用创新。
玉米作为全球产量最高的谷物(2020/21年度产量达11.16亿吨),其水分、油脂、蛋白质和淀粉含量直接影响工业与非工业应用价值。传统化学分析方法耗时且破坏样本,而近红外光谱技术凭借快速、无损、可重复等优势,已成为农产品成分分析的常用手段。然而,现有研究多关注全光谱范围建模,缺乏对光谱子区域(如倍频区overtone和合频区combination bands)的系统性解析,导致模型冗余度高、硬件成本难以优化。本研究旨在通过定向筛选光谱子区域,建立高精度预测模型,同时为开发低成本专用设备提供理论依据。
研究采用公开的玉米近红外数据集(来自Eigenvector网站),包含80个样本在1100–2498 nm范围内的700个通道光谱数据及实验室测量的水分、油脂、蛋白质和淀粉含量。通过蒙特卡洛方法检测异常值后,采用Kennard-Stone算法将数据划分为训练集(60样本)和测试集(20样本),确保数据分布一致性。
创新性地将光谱划分为三个物理意义明确的区域:
- 第二倍频区(1100–1388 nm):低吸收、高重叠
- 第一倍频区(1390–1852 nm):中等吸收
- 合频区(1852–2498 nm):高吸收、低重叠
通过单向递进搜索算法(图1),结合变量重要性投影(VIP)和遗传算法(GA),逐步筛选各成分的最优子区域:
- VIP初筛:保留VIP得分>1的波段,消除冗余变量
- GA优化:运行100次GA迭代,按变量出现频率排序
- PLS建模验证:以5折交叉验证的RMSEP(预测均方根误差)为指标,确定最佳子区域
最终采用多元线性回归(MLR)对筛选出的关键波段建模,并对比全光谱PLS模型的性能差异。研究开发了自定义MATLAB脚本(基于libPLS和回归工具箱),实现了从光谱预处理到变量选择的自动化流程。
子区域筛选效果
与现有方法对比
本研究筛选的波段数(2–14个)显著少于文献报道的类似工作(如Yun等2019年需32个变量预测油脂),且RMSEP低于传统PLS全谱模型(淀粉预测误差降低33%)。
科学价值
首次系统解析了玉米近红外光谱中倍频与合频区的成分特异性响应机制,证实合频区对水分/油脂/蛋白质、第一倍频区对淀粉的预测优势,为光谱学理论提供了实验支撑。
应用价值
研究指出,第二倍频区(1160–1232 nm)对淀粉预测的潜力可能源于淀粉的C-H二级振动,这为后续探索非优势区域的补充价值提供了新思路。