分享自:

基于NIRS的小麦蛋白质含量无损预测模型研究

期刊:spectrochimica acta part a: molecular and biomolecular spectroscopyDOI:10.1016/j.saa.2017.08.055

本文档属于类型a,即一篇关于单一原创研究的学术论文。以下是针对该研究的学术报告:


作者与机构
本研究的主要作者包括Dandan Ye、Laijun Sun、Borui Zou、Qian Zhang、Wenyi Tan和Wenkai Che。他们来自中国黑龙江省哈尔滨市的黑龙江大学电子工程学院,具体地址为黑龙江省哈尔滨市南岗区学府路74号A8号楼503室。该研究发表于《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》期刊,2018年第189卷,页码为463-472。

学术背景
本研究的主要科学领域是近红外光谱(Near Infrared Spectroscopy, NIRS)技术在农业食品分析中的应用,特别是小麦蛋白质含量的无损预测。近红外光谱技术作为一种非破坏性分析方法,能够在不破坏样品完整性的情况下快速测量多种参数,且成本较低,因此在食品分析中得到了广泛应用。然而,模型的准确性依赖于精确的数据和适当的分析方法。本研究的背景知识包括近红外光谱技术的基本原理、偏最小二乘回归(Partial Least Square Regression, PLSR)模型的应用、以及蒙特卡洛交叉验证(Monte Carlo Cross Validation, MCCV)等统计方法。研究的主要目的是通过优化数据分析和建模方法,提高小麦蛋白质含量预测模型的准确性和鲁棒性。

研究流程
本研究共包括以下几个主要步骤:

  1. 样本准备与光谱采集
    研究使用了来自中国长江上游、中下游以及东北和西北地区的116个小麦样本。样本在室温(20±1°C)下保存。光谱数据使用丹麦Foss公司生产的Infratec 1241谷物质量分析仪进行采集,光谱范围为850至1050 nm,共100个波段,采样间隔为2 nm,光谱分辨率为10 nm。每个样本扫描10次,最终光谱数据为10次测量的平均值。

  2. 化学测定
    蛋白质含量采用凯氏定氮法(Kjeldahl method)测定,依据GB/T 5009.5-1985标准。116个样本的蛋白质含量范围为9.4395%至16.9796%。

  3. PLSR模型的构建与优化
    研究采用偏最小二乘回归(PLSR)方法构建模型,并提出了一种新的全局搜索方法(Global Search Method)来选择PLSR成分。为了选择具有代表性和普遍性的建模样本,研究采用了蒙特卡洛交叉验证(MCCV)方法来检测异常样本,最终识别出4个异常样本。此外,研究还结合改进的模拟退火算法(Improved Simulated Annealing, ISA)与PLSR方法,从光谱数据中选择最有效的变量,将数据维度从100降至57,预测集的标准误差(Standard Error of Prediction, SEP)从0.0716降至0.0565,预测值与实际值的相关系数(R²)从0.9989提高至0.9994。为进一步降低数据维度,研究还使用了连续投影算法(Successive Projections Algorithm, SPA),并将这两种方法的组合称为ISA-SPA。结果表明,基于ISA-SPA构建的校准模型在综合考虑模型准确性、鲁棒性和复杂度的情况下,表现出最优的性能,决定系数(R²)提高至0.9986,SEP降至0.0528。

  4. 数据预处理与变量选择
    研究对光谱数据进行了多种预处理,包括标准正态变量变换(Standard Normal Variate, SNV)、一阶导数(First Derivative, D1)、二阶导数(Second Derivative, D2)和Savitzky-Golay平滑(Savitzky-Golay Smoothing, SG)等。通过比较不同预处理方法的效果,最终选择SG+D1+SNV作为最优预处理方法。此外,研究还采用了改进的模拟退火算法(ISA)和连续投影算法(SPA)进行变量选择,进一步优化了模型的性能。

  5. 模型性能评估
    研究通过决定系数(R²)、标准误差(SEP)和残差预测偏差(Residual Predictive Deviation, RPD)等指标评估模型的性能。结果表明,基于ISA-SPA方法构建的模型在预测小麦蛋白质含量方面表现出色,R²达到0.9986,SEP为0.0528,RPD为26.9075。

主要结果
研究的主要结果包括:
1. 通过全局搜索方法选择PLSR成分,显著提高了模型的预测准确性,SEP从1.3924降至0.1312。
2. 蒙特卡洛交叉验证方法成功识别出4个异常样本,进一步优化了模型的鲁棒性。
3. 改进的模拟退火算法(ISA)和连续投影算法(SPA)的结合有效降低了数据维度,从100个变量降至14个变量,同时提高了模型的预测精度,SEP从0.0716降至0.0528。
4. 最优预处理方法SG+D1+SNV显著提高了模型的表现,R²达到0.9975,SEP为0.0716。

结论
本研究通过优化数据分析和建模方法,提出了一种基于近红外光谱技术的小麦蛋白质含量无损预测新方法。研究结果表明,全局搜索方法、蒙特卡洛交叉验证以及改进的模拟退火算法与连续投影算法的结合,显著提高了模型的准确性和鲁棒性。该研究为小麦蛋白质含量的在线快速测定提供了一种高效、精确的非破坏性分析方法,具有重要的科学和应用价值。

研究亮点
1. 提出了一种新的全局搜索方法用于选择PLSR成分,避免了传统内部交叉验证方法容易陷入局部最优解的问题。
2. 结合改进的模拟退火算法(ISA)和连续投影算法(SPA),显著降低了数据维度,同时提高了模型的预测精度。
3. 通过蒙特卡洛交叉验证方法成功识别出异常样本,进一步优化了模型的鲁棒性。
4. 最优预处理方法SG+D1+SNV的应用显著提高了模型的表现。

其他有价值的内容
本研究还详细探讨了不同预处理方法对模型性能的影响,为未来相关研究提供了参考。此外,研究中使用的小麦样本来自中国多个地区,具有较强的代表性,进一步增强了研究结果的普适性。


以上是对该研究的全面报告,详细介绍了研究的背景、流程、结果及其科学和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com