基于UVE-LightGBM特征选择的近红外光谱玉米淀粉含量检测方法

分享自：

基于UVE-LightGBM特征选择的近红外光谱玉米淀粉含量检测方法

工程学

化学

期刊:Journal of Food Composition and AnalysisDOI:10.1016/j.jfca.2025.108421

【点击此处】阅读全文、收藏及针对性提问

学术研究报告：基于UVE-LightGBM特征选择的玉米淀粉含量近红外光谱检测方法作者与机构
 本研究的通讯作者为黑龙江八一农垦大学信息与电气工程学院的Dongfeng Yang（邮箱：yangdongfeng@byau.edu.cn），第一作者为Jie Tong。研究发表于《Journal of Food Composition and Analysis》2025年第148卷，论文编号108421。
学术背景科学领域：本研究属于农业与食品科学中的近红外光谱分析技术（Near-Infrared Spectroscopy, NIRS）领域，结合机器学习算法开发高效的特征选择方法。
研究动机：玉米淀粉作为重要的天然多糖，广泛应用于食品、制药和化工行业。传统化学检测方法（如高效液相色谱）虽准确但耗时，无法满足工业化快速检测需求。近红外光谱技术因其非破坏性、无需复杂样品前处理等优势成为替代方案，但其数据存在高维度、噪声和冗余问题，需通过特征选择优化模型性能。
研究目标：提出一种结合无信息变量消除（Uninformative Variable Elimination, UVE）与LightGBM算法的特征选择方法（UVE-LightGBM），以提升玉米淀粉含量预测的准确性、效率及模型可解释性。
研究流程与实验设计1. 数据准备与预处理数据集：采用Cargill公司提供的80个玉米样本的近红外光谱数据（波长范围1100–2498 nm，700个通道），按Kennard-Stone方法划分为校准集（60样本）和预测集（20样本）。
 
预处理方法：对比了6种预处理方法（最小值-最大值归一化、乘性散射校正、均值中心化、小波变换、一阶导数等），通过偏最小二乘回归（PLSR）评估效果。关键发现：一阶导数（1D）预处理效果最优（校准集R²=0.9994，预测集R²=0.9375），显著消除基线漂移并增强特征峰分辨率。
 
2. 特征波长选择第一阶段：UVE筛选
 在1D预处理光谱上，UVE通过PLS回归系数稳定性分析剔除冗余变量，保留127个特征波长（如1100–1200 nm、1420–1580 nm等区间），其稳定性值超过随机噪声阈值（图2a）。
 
第二阶段：LightGBM优化
 以UVE结果为基础，LightGBM进一步筛选出39个关键波长（如1754 nm、1758 nm等），其重要性评分显示这些波段与淀粉分子结构（如C-H键伸缩振动、O-H吸收带）高度相关（图3b）。
 
3. 建模与性能对比模型选择：测试了岭回归（RR）、高斯过程回归（GPR）、多层感知机回归（MLPR）和随机森林（RF）四种算法。
 
结果对比：
 GPR模型表现最佳：UVE-LightGBM结合GPR的预测集R²达0.9972，RMSE低至0.0470，显著优于单一特征选择方法（如SPA算法的R²=0.7157）。
 
模型解释性：通过SHAP（Shapley Additive Explanation）分析，1758 nm波长对预测贡献最大，其高吸光度与淀粉含量正相关（图5b），验证了特征波长的物理化学意义。
 
主要结果与逻辑衔接预处理阶段：1D处理通过消除噪声和基线漂移，为后续特征选择提供了高质量光谱数据。
 
特征选择阶段：UVE初步降维后，LightGBM进一步剔除低贡献变量，减少过拟合风险。二者结合既保留了信息量，又提升计算效率。
 
建模阶段：GPR的非线性拟合能力与UVE-LightGBM的特征集协同作用，实现了高精度预测（RPD=3.9985，远超工业应用阈值2.0）。
 
研究结论与价值科学价值：
 - 提出了一种两阶段特征选择框架（UVE-LightGBM），为高维光谱数据降维提供了新思路。
 - 通过SHAP解释模型，明确了关键波长与淀粉分子结构的关联，增强了近红外光谱分析的物理化学可解释性。
应用价值：
 - 该方法可实现玉米淀粉含量的快速（秒级）、无损检测，适用于工业化在线质量控制。
 - 技术可扩展至其他农产品成分分析（如蛋白质、水分），推动近红外技术在农业检测中的普及。
研究亮点方法创新：首次将UVE与LightGBM结合，兼顾了变量筛选的稳定性和预测相关性。
 
跨学科融合：将机器学习（LightGBM）、化学计量学（UVE）与光谱技术整合，提升模型性能。
 
可解释性突破：通过SHAP量化波长贡献，弥补传统“黑箱”模型的不足。
 
其他有价值内容数据可用性：研究数据可通过请求获取，支持方法复现。
 
资助信息：获中国国家重点研发计划（2018YFE0206300）和黑龙江省自然科学基金（LH2022E099）支持。
 
（全文约2000字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问