分享自:

基于统计模式分析的光谱化学计量学建模方法

期刊:IFAC-PapersOnLineDOI:10.1016/j.ifacol.2018.09.328

类型a

主作者、研究机构及发表信息
这篇研究由Devarshi Shah、Q. Peter He和Jin Wang共同完成,他们均来自美国阿拉巴马州奥本大学(Auburn University)。该研究发表于2018年的IFAC论文在线期刊(IFAC-PapersOnLine),并在第10届IFAC国际化学过程先进控制研讨会(Advanced Control of Chemical Processes Symposium)上展示。

学术背景与研究动机
近红外光谱(NIR)和紫外-可见光光谱(UV/Vis)等光谱技术在过去的几十年中得到了广泛应用。这些技术不仅限于传统的分析化学领域,还被应用于生物技术、制药、石化、农业和食品工业等多个领域。其优势在于非侵入性和有限的预处理需求。然而,由于光谱数据在不同波长之间的高度相关性,基于光谱测量开发软传感器(soft sensor)变得复杂且具有挑战性。虽然多变量回归方法(如偏最小二乘法,PLS)能够处理大量相关变量,但研究表明,结合变量选择可以显著提高软传感器的预测性能、降低模型复杂性,并提供对系统本质的更好理解。尽管如此,现有的变量选择方法存在局限性,例如对训练数据的高度敏感性以及在新样本上的表现较差。为了解决这些问题,本文提出了一种基于统计模式分析(Statistics Pattern Analysis, SPA)的方法,旨在通过利用整个光谱信息并减少噪声影响来改进软传感器的性能。

研究流程与实验设计
本研究包括以下几个主要步骤:

  1. 数据分段与特征提取
    首先,将整个光谱划分为若干非重叠区间,类似于协同区间偏最小二乘法(Synergy Interval PLS, SiPLS)。然后,从每个区间提取不同的统计特征(如均值、标准差、偏度和峰度),并将这些特征用作回归变量构建软传感器模型。这种方法显著减少了变量数量,同时保留了整个光谱的信息。

  2. 实验对象与样本量
    本研究包含两个案例研究。第一个案例研究使用了47个混合培养样本的紫外-可见光光谱(UV/Vis),用于预测大肠杆菌(E. coli)和酿酒酵母(S. cerevisiae)的个体细胞浓度。第二个案例研究使用了一个包含654个药片样本的近红外光谱数据集,用于预测活性药物成分(API)的浓度。

  3. 模型开发与验证
    数据集被分为校准集、验证集和测试集。对于每个案例研究,分别使用全PLS模型、SiPLS模型和SPA模型进行建模。通过蒙特卡洛模拟(Monte Carlo simulations)评估模型的鲁棒性,并使用均预测误差(MPE)和均方根误差(RMSE)作为性能指标。

  4. 数据分析方法
    在模型优化过程中,全PLS模型的主要调参参数是保留的主成分数目;SiPLS模型的调参参数包括区间宽度、组合区间的数量以及主成分数目;SPA模型的调参参数包括区间宽度和主成分数目。此外,研究还比较了不同模型在验证集和测试集上的表现,以评估其泛化能力。

主要结果
1. 案例研究一:混合培养中的个体细胞浓度预测
- 在场景A中,所有三种模型在校准集和验证集上均表现出色,但在测试集上,只有SPA模型保持了良好的性能,而SiPLS模型在预测大肠杆菌浓度时表现较差。
- 在场景B中,当测试数据与训练数据来自不同组时,所有模型的性能均显著下降,但SPA模型的表现最为稳定,提供了几乎无偏的估计。

  1. 案例研究二:药片API浓度预测

    • 在验证集上,SiPLS和SPA模型均优于全PLS模型,但在测试集上,只有SPA模型显著提高了性能。具体而言,SPA模型将MPE降低了52.9%,RMSE降低了16.2%。相比之下,SiPLS模型的性能反而恶化了。
  2. 综合分析

    • 研究表明,SPA模型通过利用整个光谱信息并减少噪声影响,在新样本上的泛化能力显著优于其他两种模型。
    • 此外,SPA模型在处理不同组间差异较大的数据时表现出更强的鲁棒性。

结论与意义
本研究提出了一种基于统计模式分析(SPA)的软传感器建模方法,解决了传统变量选择方法对训练数据敏感的问题。该方法通过划分光谱区间并提取统计特征,显著减少了变量数量,同时保留了整个光谱的信息。研究结果表明,SPA模型在预测新样本时具有更高的准确性和鲁棒性,尤其适用于测试数据与训练数据差异较大的情况。

这项研究的科学价值在于提出了一种新颖的软传感器建模框架,为光谱化学计量学领域提供了新的思路。其应用价值体现在生物技术和制药行业中的实时监测和质量控制方面。例如,在混合培养中,SPA模型可以用于快速准确地监测个体细胞浓度;在制药行业中,它可以用于预测药片中活性成分的浓度。

研究亮点
1. 提出了一种基于统计模式分析(SPA)的新方法,解决了传统变量选择方法的局限性。
2. SPA模型通过提取光谱区间的统计特征,显著减少了变量数量,同时保留了整个光谱的信息。
3. 在两个案例研究中,SPA模型在新样本上的泛化能力和鲁棒性均显著优于全PLS模型和SiPLS模型。
4. 该方法在处理不同组间差异较大的数据时表现出优异的性能,为实际应用提供了重要参考。

其他有价值的内容
研究指出,未来的工作将进一步探讨不同统计特征对软传感器性能的影响,并优化特征选择策略。此外,SPA框架的扩展潜力也为其他领域的软传感器开发提供了新的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com