分享自:

基于混合特征选择的近红外光谱定量检测糙米粗蛋白含量

期刊:chemometrics and intelligent laboratory systemsDOI:10.1016/j.chemolab.2024.105093

该文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:


主要作者及研究机构
该研究由Yujie Tian、Laijun Sun、Hongyi Bai、Xiaoli Lu、Zhongyu Fu、Guijun Lv、Lingyu Zhang和Shujia Li共同完成。主要研究机构包括黑龙江大学电子工程学院、牡丹江大学智能制造学院以及黑龙江大学嘉祥工业技术研究院。研究于2024年2月21日在线发表在期刊《Chemometrics and Intelligent Laboratory Systems》上,论文标题为《Quantitative detection of crude protein in brown rice by near-infrared spectroscopy based on hybrid feature selection》。

学术背景
该研究属于食品科学与化学计量学交叉领域,旨在开发一种快速、无损检测糙米中粗蛋白含量的方法。糙米因其高营养价值而成为重要的主食,其蛋白质含量直接影响其储存、加工和烹饪品质。传统的蛋白质检测方法(如凯氏定氮法和杜马斯法)虽然准确,但耗时长、破坏样品且存在化学残留风险,难以满足大规模育种实验的需求。近红外光谱(NIRS)技术作为一种成熟的无损检测方法,具有快速、高效的优势,能够替代传统化学分析方法。然而,全光谱建模中存在大量噪声和无关变量,增加了数据处理复杂性,降低了模型的鲁棒性。因此,本研究提出了一种基于混合特征选择(hybrid feature selection)的NIRS模型,以提高糙米蛋白质含量检测的准确性和效率。

研究流程
研究分为多个步骤,具体如下:

  1. 样品制备与光谱采集
    研究使用了349个糙米样品,包括335个粳米、11个籼米和3个糯米样品。样品经过自然阴干、脱壳处理后,使用丹麦Foss公司的NIRS DS2500多功能近红外分析仪进行光谱采集。光谱范围为400 nm–2500 nm,采样间隔为2 nm,共1050个波段。每个样品采集两次,每次测量5次,取10次测量的平均光谱作为样品光谱。

  2. 粗蛋白含量化学测定
    使用凯氏定氮法(Kjeldahl method)测定样品中的粗蛋白含量,每个样品测定两次,取平均值。结果显示,样品粗蛋白含量范围为5.23%–11.03%,大部分样品分布在6%–9%之间,具有广泛代表性。

  3. 异常样品剔除
    采用孤立森林(Isolation Forest, iForest)算法检测异常光谱。通过计算样本的异常分数,确定并剔除了6个异常样品,最终保留343个样品用于建模。

  4. 样本集划分
    使用基于联合X-Y距离的样本集划分算法(SPXY)将343个样品按7:3的比例划分为训练集(240个样品)和测试集(103个样品),确保样本集的多样性和代表性。

  5. 特征选择
    研究提出了一种改进的混合特征选择方法,结合了改进的区间偏最小二乘法(iPLS)和竞争性自适应重加权采样法(CARS)。首先,iPLS将全光谱划分为多个子区间,筛选出信息丰富的特征区间组合;然后,CARS进一步从筛选出的区间中选择关键波长。最终从1050个特征中筛选出14个有效光谱特征,集中在1160 nm–1338 nm范围内。

  6. 模型建立与评估
    基于筛选出的特征,建立了支持向量回归(SVR)模型,并与常用的偏最小二乘回归(PLSR)模型进行比较。通过10折交叉验证和测试集评估模型性能,使用决定系数(R²)、交叉验证集R²(R²cv)、预测均方根误差(RMSEP)和相对百分差异(RPD)等指标评估模型。

主要结果
1. 异常样品剔除与样本集划分
剔除6个异常样品后,模型性能显著提升。SPXY算法划分的训练集和测试集在粗蛋白含量分布上与全样本集相似,确保了模型的泛化能力。

  1. 特征选择
    改进的iPLS-CARS混合特征选择方法筛选出14个有效光谱特征,集中在1160 nm–1338 nm范围内。与单独使用iPLS或CARS相比,混合方法在减少特征数量的同时提高了模型预测精度。

  2. 模型性能
    SVR模型在测试集上的R²、RMSEP和RPD分别为0.9185、0.2040%和3.5194,优于PLSR模型。结果表明,该模型能够高效、准确地预测糙米中的粗蛋白含量。

结论
本研究成功开发了一种基于NIRS技术的糙米粗蛋白含量快速检测模型。通过改进的iPLS-CARS混合特征选择方法,筛选出14个有效光谱特征,显著提高了模型的预测精度和计算效率。该模型为糙米品质评价和育种方法改进提供了理论依据,具有重要的科学价值和应用潜力。

研究亮点
1. 创新性特征选择方法
改进的iPLS-CARS混合特征选择方法结合了区间选择和波长选择的优势,显著提高了特征筛选的效率和准确性。

  1. 高效预测模型
    基于SVR的模型在减少特征数量的同时,实现了高精度的粗蛋白含量预测,为无损检测提供了新方法。

  2. 广泛适用性
    研究使用的样品覆盖了不同品种和蛋白质含量的糙米,确保了模型的广泛适用性。

其他有价值内容
研究还详细分析了异常样品的剔除过程,验证了iForest算法在光谱数据预处理中的有效性。此外,研究对比了不同预处理方法对模型性能的影响,确定了SNV + detrend(标准正态变量变换+去趋势校正)为最优预处理方法。


以上是对该研究的全面报告,涵盖了研究背景、流程、结果、结论及亮点,为相关领域的研究者提供了详尽的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com