分享自:

基于UVE-LightGBM特征选择的近红外光谱玉米淀粉含量检测方法

期刊:Journal of Food Composition and AnalysisDOI:10.1016/j.jfca.2025.108421

学术研究报告:基于UVE-LightGBM特征选择的玉米淀粉含量近红外光谱检测方法

作者与机构
本研究的通讯作者为黑龙江八一农垦大学信息与电气工程学院的Dongfeng Yang(邮箱:yangdongfeng@byau.edu.cn),第一作者为Jie Tong。研究发表于《Journal of Food Composition and Analysis》2025年第148卷,论文编号108421。


学术背景

科学领域:本研究属于农业与食品科学中的近红外光谱分析技术(Near-Infrared Spectroscopy, NIRS)领域,结合机器学习算法开发高效的特征选择方法。

研究动机:玉米淀粉作为重要的天然多糖,广泛应用于食品、制药和化工行业。传统化学检测方法(如高效液相色谱)虽准确但耗时,无法满足工业化快速检测需求。近红外光谱技术因其非破坏性、无需复杂样品前处理等优势成为替代方案,但其数据存在高维度、噪声和冗余问题,需通过特征选择优化模型性能。

研究目标:提出一种结合无信息变量消除(Uninformative Variable Elimination, UVE)与LightGBM算法的特征选择方法(UVE-LightGBM),以提升玉米淀粉含量预测的准确性、效率及模型可解释性。


研究流程与实验设计

1. 数据准备与预处理

  • 数据集:采用Cargill公司提供的80个玉米样本的近红外光谱数据(波长范围1100–2498 nm,700个通道),按Kennard-Stone方法划分为校准集(60样本)和预测集(20样本)。
  • 预处理方法:对比了6种预处理方法(最小值-最大值归一化、乘性散射校正、均值中心化、小波变换、一阶导数等),通过偏最小二乘回归(PLSR)评估效果。关键发现:一阶导数(1D)预处理效果最优(校准集R²=0.9994,预测集R²=0.9375),显著消除基线漂移并增强特征峰分辨率。

2. 特征波长选择

  • 第一阶段:UVE筛选
    • 在1D预处理光谱上,UVE通过PLS回归系数稳定性分析剔除冗余变量,保留127个特征波长(如1100–1200 nm、1420–1580 nm等区间),其稳定性值超过随机噪声阈值(图2a)。
  • 第二阶段:LightGBM优化
    • 以UVE结果为基础,LightGBM进一步筛选出39个关键波长(如1754 nm、1758 nm等),其重要性评分显示这些波段与淀粉分子结构(如C-H键伸缩振动、O-H吸收带)高度相关(图3b)。

3. 建模与性能对比

  • 模型选择:测试了岭回归(RR)、高斯过程回归(GPR)、多层感知机回归(MLPR)和随机森林(RF)四种算法。
  • 结果对比
    • GPR模型表现最佳:UVE-LightGBM结合GPR的预测集R²达0.9972,RMSE低至0.0470,显著优于单一特征选择方法(如SPA算法的R²=0.7157)。
    • 模型解释性:通过SHAP(Shapley Additive Explanation)分析,1758 nm波长对预测贡献最大,其高吸光度与淀粉含量正相关(图5b),验证了特征波长的物理化学意义。

主要结果与逻辑衔接

  1. 预处理阶段:1D处理通过消除噪声和基线漂移,为后续特征选择提供了高质量光谱数据。
  2. 特征选择阶段:UVE初步降维后,LightGBM进一步剔除低贡献变量,减少过拟合风险。二者结合既保留了信息量,又提升计算效率。
  3. 建模阶段:GPR的非线性拟合能力与UVE-LightGBM的特征集协同作用,实现了高精度预测(RPD=3.9985,远超工业应用阈值2.0)。

研究结论与价值

科学价值
- 提出了一种两阶段特征选择框架(UVE-LightGBM),为高维光谱数据降维提供了新思路。
- 通过SHAP解释模型,明确了关键波长与淀粉分子结构的关联,增强了近红外光谱分析的物理化学可解释性。

应用价值
- 该方法可实现玉米淀粉含量的快速(秒级)、无损检测,适用于工业化在线质量控制。
- 技术可扩展至其他农产品成分分析(如蛋白质、水分),推动近红外技术在农业检测中的普及。


研究亮点

  1. 方法创新:首次将UVE与LightGBM结合,兼顾了变量筛选的稳定性和预测相关性。
  2. 跨学科融合:将机器学习(LightGBM)、化学计量学(UVE)与光谱技术整合,提升模型性能。
  3. 可解释性突破:通过SHAP量化波长贡献,弥补传统“黑箱”模型的不足。

其他有价值内容

  • 数据可用性:研究数据可通过请求获取,支持方法复现。
  • 资助信息:获中国国家重点研发计划(2018YFE0206300)和黑龙江省自然科学基金(LH2022E099)支持。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com