分享自:

不同波长选择方法的综合比较研究

期刊:Spectrochimica Acta Part A: Molecular and Biomolecular SpectroscopyDOI:10.1016/j.saa.2025.125767

该文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:


作者与机构
本研究由Tao Wang、Yun Zheng、Lilan Xu和Yong-Huan Yun共同完成。Tao Wang、Yun Zheng和Lilan Xu均来自海南大学食品科学与工程学院,Yong-Huan Yun则同时任职于海南大学食品科学与工程学院及海南省食品控制研究所。研究发表于期刊《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》,发表日期为2025年1月19日。

学术背景
近红外光谱(Near-Infrared Spectroscopy, NIR)作为一种间接的现代分析方法,自20世纪80年代末以来广泛应用于化学分析、农业科学、食品安全等领域。然而,高维光谱数据不仅包含有用信息,还包含大量冗余信息,这为光谱分析带来了挑战。波长选择(Wavelength Selection)是NIR光谱分析中的关键步骤,其目标是减少冗余和无效信息,同时保留有用变量。过去几十年中,研究者开发了数百种波长选择方法,以提高模型的准确性和可解释性。然而,不同领域的光谱数据集在维度和特征上存在显著差异,如何快速、准确地选择适合不同维度数据集的波长选择方法,一直是研究者面临的重要问题。

本研究旨在比较不同波长选择方法在不同维度NIR光谱数据集上的性能,为研究者提供参考。研究将波长选择方法根据其原理分为四类:基于偏最小二乘(Partial Least Squares, PLS)参数的方法、基于智能优化算法(Intelligent Optimization Algorithms, IOA)的方法、基于模型群体分析(Model Population Analysis, MPA)的方法以及波长区间选择(Wavelength Interval Selection, WIS)方法。研究通过比较模型的R²c、R²p、校准均方根误差(Root Mean Square Error of Calibration, RMSEC)、预测均方根误差(Root Mean Square Error of Prediction, RMSEP)、选择变量数量、计算时间以及RMSEP改进率(Improvement Ratio of RMSEP, IRMSEP)等指标,评估不同方法的性能。

研究流程
研究主要分为以下几个步骤:

  1. 数据集选择与预处理
    研究从公开数据库中选取了八个不同维度的NIR光谱数据集,涵盖了啤酒、玉米油、小麦蛋白、烟草、大豆水分、柴油燃料、片剂和射击数据集。每个数据集的基本信息包括样本数量、变量数量、变量与样本的比例、平均值、标准差和变异系数。数据集被划分为训练集和测试集,划分比例与先前文献一致。

  2. 波长选择方法的分类与实施
    研究将波长选择方法分为四类:

    • 基于PLS参数的方法:包括回归系数(Regression Coefficient, RC)、变量重要性投影(Variable Importance in Projection, VIP)、随机化检验(Randomization Test, RT)、选择性比(Selectivity Ratio, SR)和递归加权偏最小二乘法(Recursive Weighted Partial Least Squares, RPLS)。
    • 基于IOA的方法:包括遗传算法(Genetic Algorithm, GA)、鲸鱼优化算法(Whale Optimization Algorithm, WOA)、灰狼优化算法(Grey Wolf Optimization, GWO)、蝴蝶优化算法(Butterfly Optimization Algorithm, BOA)和粒子群优化算法(Particle Swarm Optimization, PSO)。
    • 基于MPA的方法:包括蒙特卡洛-无信息变量消除(Monte Carlo-Uninformative Variable Elimination, MC-UVE)、竞争性自适应重加权采样(Competitive Adaptive Reweighted Sampling, CARS)、迭代保留信息变量(Iteratively Retaining Informative Variables, IRIV)、变量组合群体分析(Variable Combination Population Analysis, VCPA)和自举软收缩(Bootstrapping Soft Shrinkage, BOSS)。
    • WIS方法:包括区间变量迭代空间收缩法(Interval Variable Iterative Space Shrinkage Approach, IVISSA)、区间随机蛙跳法(Interval Random Frog, IRF)、区间组合优化(Interval Combination Optimization, ICO)、区间偏最小二乘法(Interval Partial Least Squares, IPLS)和遗传算法区间偏最小二乘法(Genetic Algorithm Interval Partial Least Squares, GA-IPLS)。
  3. 模型建立与性能评估
    研究使用上述二十种波长选择方法对八个数据集进行波长选择,并建立校准模型。模型性能通过R²c、R²p、RMSEC、RMSEP、选择变量数量、计算时间和IRMSEP等指标进行评估。研究还提出了一种新的评估指标IRMSEP,用于比较波长选择前后模型的预测性能改进情况。

主要结果
研究结果表明,基于MPA和WIS的方法在大多数数据集中表现更为稳定和优越。在二十种波长选择方法中,BOSS和GA-IPLS在整体水平上表现最佳。具体而言:
- 基于PLS参数的方法:RT方法表现最佳,RC方法表现最差。
- 基于IOA的方法:BOA方法表现最佳,PSO方法表现最差。
- 基于MPA的方法:BOSS方法表现最佳,MC-UVE方法表现最差。
- WIS方法:GA-IPLS方法表现最佳,IPLS方法表现最差。

结论
本研究表明,适当的波长选择方法可以有效降低数据维度,减少多重共线性,帮助构建更简化和高效的模型。基于MPA和WIS的方法在不同维度的数据集中表现更为稳定和优越,尤其是BOSS和GA-IPLS方法在整体水平上表现最佳。研究为NIR光谱分析中波长选择方法的选择提供了重要参考,并为未来研究提供了新的思路。

研究亮点
- 提出了新的评估指标IRMSEP,用于量化波长选择对模型预测性能的改进。
- 系统比较了四类二十种波长选择方法在不同维度NIR光谱数据集上的性能。
- 发现基于MPA和WIS的方法在大多数数据集中表现更为稳定和优越,BOSS和GA-IPLS方法在整体水平上表现最佳。

其他有价值的内容
研究还指出,未来NIR光谱分析中的波长选择方法可以结合深度学习(Deep Learning, DL)技术,如自编码器(Autoencoder)和注意力机制(Attention Mechanism),以进一步提高预测性能。这些技术的应用将推动NIR光谱分析的进一步发展和应用,为研究者提供更可靠和高效的研究思路。


以上是对该研究的全面报告,涵盖了研究的背景、流程、结果、结论及其科学价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com