分享自:

基于近红外光谱和机器学习算法的大米口感无损质量分类

期刊:Food ChemistryDOI:10.1016/j.foodchem.2023.136907

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


研究作者及机构
本研究由Edenio Olivares Díaz、Haruka Iino、Kento Koyama、Shuso Kawamura、Shigenobu Koseki(均来自日本北海道大学农业科学研究生院)以及Suxing Lyu(来自东京大学前沿科学研究生院)共同完成。研究发表于《Food Chemistry》期刊,2023年7月20日在线发布,卷号为429,文章编号为136907。

学术背景
本研究属于食品科学与机器学习交叉领域,旨在通过近红外光谱(Near-Infrared Spectroscopy, NIR)和机器学习算法实现大米口感的非破坏性质量分类。大米的口感质量主要由蛋白质含量(Protein Content, PC)和直链淀粉含量(Amylose Content, AC)决定,低PC和AC通常被认为是高质量口感的标志。然而,如何在不破坏样品的情况下准确评估这些成分仍是一个技术难题。本研究的目标是开发一种基于NIR光谱和机器学习的高效分类模型,以提升大米质量检测的准确性和效率,并推动相关技术在农业和食品工业中的应用。

研究流程
研究分为以下几个主要步骤:

  1. 样品收集与处理
    研究使用了2008年至2019年间从日本北海道地区收集的1074个糙米样品,涵盖11种非糯性粳稻品种。样品分为训练集(2008-2016年,796个样品)和测试集(2017-2019年,278个样品)。每个样品的AC通过碘比色法测定,PC则通过NIR光谱仪结合凯氏定氮法(Kjeldahl Method)预测。

  2. NIR光谱测定
    使用BR-5000 NIR光谱仪对每个样品进行光谱扫描,光谱范围为850-1048 nm,步长为2 nm,路径长度为30 mm。每个样品的光谱为三次扫描的平均值。

  3. 机器学习模型开发
    研究采用了三种线性机器学习算法:逻辑回归(Logistic Regression, LR)、支持向量机(Support Vector Machine, SVM)和偏最小二乘判别分析(Partial Least Squares Discriminant Analysis, PLS-DA)。模型通过网格搜索(GridSearchCV)和10折交叉验证进行优化,并调整分类阈值以提升性能。

  4. 数据预处理与特征降维
    对于LR和SVM模型,使用主成分分析(Principal Component Analysis, PCA)对NIR光谱特征进行降维。对于PLS-DA模型,采用Savitzky-Golay二阶导数处理光谱数据,以解决光谱重叠和基线漂移问题。

  5. 模型评估与优化
    通过混淆矩阵、平衡准确率、精确率、召回率、F1分数和分类误差等指标评估模型性能。研究还优化了分类阈值,以在精确率和召回率之间取得平衡。

主要结果
1. AC和PC的变异性
研究显示,不同年份和品种的AC和PC存在显著差异,表明大米成分受环境和遗传因素的影响。

  1. NIR光谱分析
    NIR光谱显示,高质量口感(HQ)和普通质量口感(OQ)样品的光谱相似,但通过机器学习模型仍能有效区分。

  2. 模型性能
    LR和SVM模型在测试集上表现优异,准确率达到94%,F1分数为90%,分类误差为4%。相比之下,PLS-DA模型的性能较差,F1分数仅为64%。优化分类阈值后,LR和SVM模型的精确率和召回率进一步提升,分类误差降至4%。

  3. 最佳模型选择
    基于精确率-召回曲线和平均精确率值,LR和SVM模型被选为最佳分类模型,适用于工业环境中的大米口感质量分类。

结论
本研究成功开发了基于NIR光谱和机器学习的高性能线性模型,能够非破坏性地分类大米口感质量。LR和SVM模型在精确率、召回率和分类误差等指标上均优于PLS-DA模型,展示了其在工业应用中的潜力。该研究不仅提升了大米质量检测的效率和准确性,还为其他农产品和食品的质量控制提供了新的技术路径。

研究亮点
1. 创新性方法
本研究首次将NIR光谱与线性机器学习算法结合,实现了大米口感质量的非破坏性分类。

  1. 高性能模型
    LR和SVM模型在测试集上表现出色,准确率和F1分数均达到90%以上,分类误差仅为4%。

  2. 工业应用潜力
    该技术可直接应用于粮食仓储和质量检测系统,提升大米生产的自动化和效率。

  3. 广泛适用性
    研究方法不仅适用于大米,还可推广至其他农产品和食品的质量控制,具有广泛的应用前景。

其他有价值的内容
研究还探讨了不同机器学习算法在处理不平衡数据集时的表现,发现LR和SVM算法在分类性能上优于PLS-DA。此外,研究通过优化分类阈值,进一步提升了模型的精确率和召回率,为类似研究提供了重要的技术参考。


以上是对该研究的全面报告,涵盖了研究背景、流程、结果、结论及其科学和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com