本研究由Lewis Y. Geer(通讯作者)、Stephen E. Stein、William Gary Mallard和Douglas J. Slotta共同完成,所有作者均隶属于美国国家标准与技术研究院(National Institute of Standards and Technology, NIST)。该项研究成果以题为《Airi: Predicting Retention Indices and Their Uncertainties Using Artificial Intelligence》的论文形式,发表于2024年的J. Chem. Inf. Model.期刊上(2024年第64卷第690-696页)。
学术背景
本研究属于分析化学、化学信息学与人工智能交叉的领域,具体聚焦于科瓦茨保留指数(Kováts Retention Index, RI)的计算预测。RI是气相色谱分析中一个关键的化合物定性参数,它通过将目标化合物的保留时间与同系正构烷烃的保留时间相关联,消除了许多实验条件波动的影响,从而成为一个高度重现、仅取决于化合物分子结构和固定相性质的标度值。在化学分析中,尤其是质谱(MS)联用技术中,RI与质谱图结合使用,能够极大地提高未知化合物鉴定的准确性和可靠性。
然而,建立一个全面、高质量的实验测定RI数据库是一项极其耗时费力的工作。尽管NIST等机构持续多年进行测量,但其庞大的质谱库中仍有大量化合物缺少实测的RI值。以往,研究者们尝试了多种方法来预测RI,包括基于基团贡献的定量构效关系(QSAR)方法和早期的深度学习模型。这些方法在一定程度上取得了成功,但预测精度,特别是误差分布的“长尾”现象(即存在少数预测误差极大的离群点),以及缺乏对单个预测值不确定性的可靠估计,限制了其在严格的分析化学应用中的实用价值。因此,本研究旨在解决两个核心问题:第一,开发一种能够高精度预测标准半极性色谱柱上RI值的人工智能模型;第二,为该模型的每一个个体预测提供可靠的不确定度估计,从而使其预测结果在真实的化学鉴定和质量控制场景中更具可用性和可信度。
研究流程详述
本研究的工作流程可系统性地划分为五个主要环节:数据准备与处理、模型架构选择与超参数优化、模型训练与集成、预测性能评估、以及预测不确定度的量化与校正。
第一环节:数据准备与标准化。 研究数据来源于2023年NIST质谱参考库,包含142,462个化合物在标准半极性柱上的实测RI值。为确保数据质量,研究者剔除了RI值超过6280的极少数化合物。随后,将数据随机划分为训练集(132,440个化合物)、验证集(2,870个化合物)和测试集(7,152个化合物)。考虑到某些RI预测模型对衍生化(如三甲基硅烷化,TMS)和非衍生化合物的表现可能不同,数据集还特别标注了TMS衍生化状态以供后续分析。在模型输入前,所有化合物的分子结构都通过基于RDKit的标准化流程进行了处理,包括凯库勒化、芳构化、杂化、移除显式氢、官能团标准化和立体化学重新计算,以确保输入结构的一致性。
第二环节:模型架构选择与超参数优化。 研究团队选择了路径增强图Transformer网络(Path-Augmented Graph Transformer Network, PAGTN)作为核心模型架构。这一选择基于对基团加和性方法的深入理解:有效的RI预测需要模型能够感知原子周围的多层邻域信息(远程路径),并能够区分和强调对保留指数贡献关键的原子基团。PAGTN的注意力机制恰好能满足这一需求,它允许模型在处理分子图时,沿原子间的路径捕获长程依赖关系,并通过注意力权重选择性地关注重要路径。模型的输入特征包括原子特征(原子序数、形式电荷、键合原子数)和路径特征(路径中每个键的类型、是否共轭、拓扑最短距离、是否在环内、环大小及芳香性等)。研究者进行了一项详尽的手动引导的超参数搜索,以最小化验证集上的平均绝对误差(MAE)。搜索范围包括网络深度(4至10层)、注意力头数(1或2)、最大路径长度(2至6)以及查询和隐藏层大小(120至400,步长为40)。最终确定的最优架构参数为:深度8层、1个注意力头、最大路径长度5、查询和隐藏层大小均为280。此外,实验对比了Adam和AdamW优化器,最终选择Adam作为训练优化器。该网络共包含约260万个参数。
第三环节:模型训练、集成与性能评估。 为了提升预测的准确性和稳健性,研究者没有使用单一模型,而是构建了一个由8个独立训练的同架构PAGTN模型组成的集成模型(Airi)。每个模型使用相同的超参数,但在不同的随机初始化状态下,基于相同的训练集(每次的随机顺序不同)进行独立训练。最终的RI预测值是这8个模型输出的平均值。在测试集上,该集成模型表现出优异的预测性能:平均绝对误差(MAE)为15.1,预测值与观测值之间的相关系数高达0.9987。研究特别指出,模型对TMS衍生化(MAE=15.4)和非衍生化(MAE=15.0)化合物的预测精度基本一致,显示出良好的普适性。
第四环节:预测不确定度的量化与校正。 这是本研究的创新核心。单纯使用整体误差统计量(如MAE)无法反映对单个化合物预测的可信度。为此,研究者利用集成模型的内部差异来估计每个预测的不确定度。具体方法是:对于一个给定的化合物,计算8个网络预测值的预测标准偏差,作为该预测不确定度的初始估计。然而,分析发现这个初始预测标准偏差与真实误差之间的相关性仅为0.32,且在误差分布的高尾和低尾区域,预测标准偏差系统性低估了实际误差。为解决这个问题,研究者开发了一种校正方法来改善不确定度估计的可靠性。他们使用训练集数据,将预测标准偏差的范围划分为若干区间(bin),对于每个区间,计算该区间内样本的第p百分位数绝对误差与第p百分位数预测标准偏差的比率(校正系数)。通过遍历不同的百分位数p(50%至99%)和区间数b(3至24),在验证集上寻找能同时最小化校正后Z分数标准偏差及其95百分位对应平均RI值的p和b组合。最终确定的优化参数为p=78%,b=2。应用此校正系数曲线对测试集的预测标准偏差进行逐点缩放,得到校正后的预测标准偏差。
主要结果
研究的主要结果体现在预测精度和不确定度估计质量两个方面。
预测精度方面: Airi集成模型在测试集上取得了MAE为15.1的出色成绩。更重要的是,研究者深入分析了误差分布,报告了长尾统计量:90%和95%的预测其绝对误差分别不超过30.2和46.5。99百分位绝对误差为135.7,表明仍存在少量显著离群值,但整体分布已得到良好控制。与文献报道的其他先进模型(如DeepReI和RIPred)相比,Airi模型在MAE和95百分位误差上均表现出优势或相当的性能,且其预测已实际应用于NIST质谱库的构建。
不确定度估计方面: 校正后的不确定度估计质量显著提升。通过计算Z分数(Z = (观测RI - 预测RI) / 校正后的预测标准偏差)来衡量。校正前,Z分数的标准偏差为2.39,分布呈现重尾。校正后,Z分数的标准偏差降低至1.52,更接近理想的正态分布标准偏差1。同时,95百分位绝对Z分数对应的平均RI值从校正前的较大值改善为42.6。这意味着,经过校正后,模型不仅给出了每个预测的个体化不确定度估计,而且这个估计能够更准确地反映预测误差的实际分布,使得95%的预测误差有相当的概率落在预测值±(42.6 RI单位)的范围内。图2展示了一个测试子集的观测值与预测值散点图,其误差条为校正后的预测标准偏差,直观显示了大误差点通常伴随较大的预测不确定度。
结论与意义
本研究成功开发并验证了名为Airi的深度学习模型,用于从分子结构高精度预测气相色谱科瓦茨保留指数,并首创了一套有效量化每个预测个体不确定度的方法。该工作具有重要的科学价值和应用价值。
科学价值在于:它证明了基于PAGTN的深度学习架构能够有效捕捉分子结构与复杂色谱保留行为之间的深层关系,其性能超越了传统的基团贡献方法。更重要的是,它将机器学习中集成模型的不一致性与预测不确定度估计联系起来,并通过一种基于百分位数比率的校正方法,显著改善了不确定度估计的校准水平,为解决化学信息学中预测模型的可信度问题提供了切实可行的方案。
应用价值尤为突出,已在NIST的实际工作中得到体现:1)数据库扩充与质量控制:为缺乏实测RI值的NIST质谱库条目提供高质量的预测值。2)错误检测:通过对比预测值与文献值或实测值,帮助识别数据库中的潜在错误。3)辅助化合物鉴定:在质谱库搜索中,结合RI预测值及其不确定度,可以对候选化合物列表进行过滤或重排序,优先考虑RI匹配度高的化合物,从而提升鉴定的准确性和效率。4)决策支持:帮助判断分析物在进样前是否发生了衍生化或分解。
研究亮点
本研究的亮点体现在:第一,预测精度与实用性兼顾:不仅达到了较低的MAE,更关键的是控制了误差分布的长尾,使得绝大多数预测具有实际应用价值。第二,不确定度估计的创新性:超越了仅报告整体误差的常规做法,实现了对每个预测的个体化不确定度量化,且通过校正方法使该估计更为可靠,这是将AI预测可靠地应用于严肃科学分析的关键一步。第三,模型的鲁棒性与普适性:对衍生化和非衍生化化合物表现一致,证明了模型捕捉的是普适的分子结构-保留关系。第四,紧密联系实际应用:研究直接面向NIST大型质谱库的构建与质控需求,所有方法开发都以提升化学鉴定实战能力为最终目标,代码和模型均已公开,促进了相关领域的研究与应用。
其他有价值内容
文中还提及了对预测误差来源的初步探索,发现误差与某些分子描述符(如叔胺、分子拓扑复杂度BertzCT指数)存在弱相关性(~0.2),这为未来进一步改进模型架构或进行误差分析提供了线索。此外,研究者公开了所有源代码和模型(发布于GitHub的usnistgov/masskit和masskit_ai仓库),并提供了命令行预测工具,确保了研究的可重复性和工具的可用性,体现了开放科学的精神。