本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:
作者及单位
本研究的主要作者包括Xi-yao Feng、Zheng-guang Chen、Shu-juan Yi和Peng-hui Wang,分别来自黑龙江八一农垦大学信息与电气工程学院、工程学院以及大庆油田环境监测站。该研究发表于《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》期刊,于2025年8月23日在线发布。
学术背景
近红外光谱技术(Near-Infrared Spectroscopy, NIR)是一种快速、非破坏性的分析方法,广泛应用于样品中多种成分的检测与分析。然而,近红外光谱数据具有高维性和冗余信息的特点,直接使用全光谱数据进行建模不仅会降低模型训练效率,还可能导致过拟合,影响模型的预测性能。因此,在建模前进行特征波长选择或降维是必要的,以减少变量间的多重共线性(multicollinearity)和冗余信息,从而提高模型的稳定性和预测能力。
目前,已有多种方法用于近红外光谱的特征波长选择,但这些方法在处理波长间的多重共线性问题上仍存在不足。本研究提出了一种三阶段波长选择算法(Three-Stage Wavelength Selection Algorithm),旨在减少光谱数据中的冗余信息,降低波长变量间的共线性,从而构建更简洁、更准确的预测模型。
研究流程
本研究分为以下几个主要步骤:
1. 数据预处理
研究对象为公开的玉米样本近红外光谱数据集,包含80个玉米样本的原始光谱及其水分、油脂、蛋白质和淀粉含量。光谱波长范围为1100~2498 nm,共700个波长点。研究以蛋白质含量为目标变量。
在波长选择前,使用Savitzky-Golay(S-G)一阶导数方法对原始光谱进行预处理,以减少基线漂移和随机噪声,提高光谱的信噪比。预处理后,波长点数量减少至688个。
第一阶段波长选择
计算每个波长向量与浓度向量之间的相关系数(Correlation Coefficient, CC),并设置阈值t1,选择相关系数高于t1的波长点。通过网格搜索确定最佳t1值为0.440,最终筛选出140个波长点。这些波长点主要集中在光谱吸收峰附近,但仍存在较高的多重共线性。
第二阶段波长选择
基于第一阶段的结果,计算140个波长点之间的相关系数矩阵,并计算每列的平均值和标准差。设置阈值t2和t3,选择平均值低于t2且标准差低于t3的波长点。通过网格搜索确定t2=0.490、t3=0.250,最终筛选出18个波长点。这一阶段进一步减少了波长点间的共线性。
第三阶段波长选择
在第二阶段的基础上,使用逐步回归分析(Stepwise Regression, SWR)筛选对模型贡献最大的波长点,最终选择7个波长点作为建模变量。这些波长点分别位于1192 nm、1458 nm、1746 nm、1922 nm、2080 nm、2096 nm和2202 nm,均位于光谱吸收峰附近,且与蛋白质的化学键振动频率相关。
建模与评估
使用偏最小二乘回归(Partial Least Squares Regression, PLSR)和多元线性回归(Multiple Linear Regression, MLR)方法对筛选出的波长点进行建模,并通过决定系数(R²)和均方根误差(RMSE)评估模型性能。结果表明,基于三阶段波长选择算法构建的MLR模型在测试集上的R²达到0.9360,RMSE为0.1170,优于全光谱模型及其他波长选择方法(如SPA、UVE和CARS)。
主要结果
1. 第一阶段结果
筛选出140个波长点,主要集中在光谱吸收峰附近,相关系数介于0.3~0.6之间,标准差介于0.15~0.35之间。这些波长点虽与目标变量相关性较高,但存在较高的多重共线性。
第二阶段结果
筛选出18个波长点,进一步减少了波长点间的共线性。这些波长点的相关系数介于0.2~0.5之间,标准差介于0.15~0.35之间。
第三阶段结果
最终筛选出7个波长点,均位于光谱吸收峰附近,且与蛋白质的化学键振动频率相关。这些波长点间的相关系数较低,共线性问题得到有效解决。
模型性能
基于三阶段波长选择算法构建的MLR模型在测试集上的R²达到0.9360,RMSE为0.1170,优于全光谱模型及其他波长选择方法。该模型的训练集与测试集性能差异较小,泛化能力较强。
结论
本研究提出了一种三阶段波长选择算法,结合了相关系数法和逐步回归分析的优点,能够有效减少近红外光谱数据中的冗余信息和波长变量间的多重共线性,从而构建更简洁、更准确的预测模型。该算法在玉米样本近红外光谱数据集上的应用表明,其在波长选择和模型预测性能方面优于其他方法,具有较高的科学价值和实际应用价值。
研究亮点
1. 方法创新
提出了一种结合相关系数法和逐步回归分析的三阶段波长选择算法,有效解决了近红外光谱数据中的多重共线性问题。
模型性能优越
基于该算法构建的MLR模型在测试集上的R²达到0.9360,优于全光谱模型及其他波长选择方法。
实际应用价值
该算法可用于近红外光谱数据的特征波长选择,提高模型的预测精度和稳定性,适用于多种成分的定量分析。
其他有价值内容
本研究还对比了其他波长选择方法(如SPA、UVE和CARS)的性能,进一步验证了三阶段波长选择算法的优越性。此外,研究还探讨了光谱预处理对波长选择的影响,强调了S-G一阶导数方法在提高光谱信噪比和相关性方面的重要性。
以上是本研究的详细报告,旨在为其他研究者提供全面的介绍和参考。