这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究的主要作者包括Jarbas Verissimo Robert、Jefferson S. de Gois、Rodrigo Barros Rocha和Aderval S. Luna。他们分别来自巴西里约热内卢州立大学(Rio de Janeiro State University)的化学工程研究生项目,以及巴西农业研究公司(Embrapa)的Rondônia农业研究中心。该研究发表于《Food Chemistry》期刊,2022年卷371,文章编号131063,并于2021年9月7日在线发布。
本研究的主要科学领域是食品化学和化学计量学,特别是咖啡的地理分类。咖啡是全球数百万人的收入来源,在80多个国家种植。巴西是世界上最大的咖啡生产国,不同地理区域生产的咖啡具有不同的化学特性。因此,咖啡的地理分类对于确保其质量和真实性具有重要意义。传统的地理分类方法依赖于化学分析结合化学计量学,但通常需要复杂的样品制备步骤,且仅适用于地理上相距较远的区域。本研究提出了一种基于同步荧光光谱(Synchronous Fluorescence Spectroscopy)结合化学计量学工具的直接固体样品分析方法,旨在开发一种简单、低成本且高效的地理分类方法。
本研究包括以下几个主要步骤:
样品收集与制备
从巴西Rondônia州的四个不同地理区域(Ariquemes、Alta Floresta d’Oeste、Ouro Preto do Oeste和Porto Velho)收集了200颗Coffea canephora咖啡豆,每个区域50颗。样品在室温(25°C)下避光保存,直到样品制备。样品经过研磨(Cuisinart DCG-20N)并过筛至直径小于200目,然后放置在固体样品支持物上进行后续分析。
同步荧光光谱测量
使用配备直接固体样品分析附件的荧光光谱仪(Fluorat-02-Panorama, Lumex, Russia)进行光谱采集。光谱在350 nm至600 nm波长范围内以1 nm分辨率、1 nm/s扫描速率和两个波长偏移量(Δλ = 10 nm和40 nm)下进行三次重复测量。初步研究确定了10 nm和40 nm为最合适的波长偏移量。
化学计量学分析
所有数据分析使用R软件(版本4.0.2)及其图形界面RStudio(版本1.3.1073)进行。光谱数据经过基线校正(使用非对称最小二乘法)、平滑处理(Savitzky-Golay多项式,五阶,21点窗口)和散射校正(乘法散射校正)。使用了多种R包(如rccparmadillo、prospectr、mdatools等)进行数据处理和分类分析。
样品分类研究
样品分类研究比较了五种不同策略下的多种分类方法:(1)使用经典PCA(主成分分析)得分和10 nm及40 nm波长偏移量的光谱数据;(2)使用经典PCA得分和融合光谱数据(中层次融合);(3)使用全光谱通过融合数据(低层次融合);(4)使用融合数据并结合Pareto优化准则。研究的分类方法包括LDA(线性判别分析)、QDA(二次判别分析)、RDA(正则化判别分析)、MDA(混合判别分析)、SVM(支持向量机,包括线性、多项式和径向基函数核)、RF(随机森林)、GBM(梯度提升机)、ANN(人工神经网络)、K-NN(K近邻算法)、LVQ(学习向量量化)和优化LVQ。
异常值检测
使用鲁棒主成分分析(Robust PCA, RobPCA)检测异常值。通过空间符号变换对数据进行归一化处理,以减少异常值的影响。结果显示,40 nm偏移量的数据中存在异常值,因此这些样本在构建分类模型前被移除。
分类方法优化
使用Pareto优化准则对SVM多项式、SVM径向基函数和随机森林算法进行优化。优化过程包括调整树的数量、随机变量数量、SVM的度数和成本参数等。
同步荧光光谱
10 nm偏移量的光谱分辨率高于40 nm偏移量,且某些物质的信号仅在10 nm偏移量下可见。融合数据(10 nm + 40 nm)的光谱结合了两种偏移量的信息,为后续分类提供了更丰富的数据。
异常值检测
RobPCA结果显示,40 nm偏移量的数据中存在异常值,特别是来自Alta Floresta d’Oeste和Ouro Preto do Oeste的样本。这些异常值在分类模型构建前被移除。
分类方法比较
使用经典PCA得分的分类方法中,非线性模型(如随机森林和SVM多项式)在10 nm偏移量下表现最佳。融合数据的分类结果优于单一偏移量的数据。使用原始融合数据并结合Pareto优化准则的分类方法进一步提高了分类准确性,特别是SVM多项式方法表现最优,准确率和Kappa指数均超过95%。
分类性能评估
随机森林和SVM多项式方法在原始融合数据下的分类性能最佳,其灵敏度和特异性均达到较高水平。例如,SVM多项式方法在Ariquemes样本中的灵敏度为0.9189,特异性为1.0000。
本研究提出了一种基于同步荧光光谱和化学计量学工具的直接固体样品分析方法,成功实现了巴西Rondônia州咖啡的地理分类。该方法具有高样品通量、低成本和简化的样品处理步骤等优势。Pareto优化准则的应用进一步提高了分类算法的性能,特别是在SVM多项式方法中表现显著。该研究为咖啡的地理分类提供了一种高效、可靠的分析工具,具有重要的科学和应用价值。
重要发现
本研究首次将同步荧光光谱与直接固体样品分析结合,成功实现了咖啡的地理分类,特别是在地理上相近区域的分类中表现出色。
方法新颖性
研究提出了一种基于Pareto优化准则的SVM多项式优化方法,显著提高了分类准确性。
研究对象的特殊性
研究对象为巴西Rondônia州的Coffea canephora咖啡豆,地理分类的挑战性较高,但研究方法成功克服了这一难题。
本研究还详细介绍了同步荧光光谱在食品分类中的应用潜力,特别是在多组分分析中的优势。此外,研究中的异常值检测方法和数据融合策略也为其他类似研究提供了参考。