等温气相色谱科瓦茨保留指数的精确预测

分享自：
等温气相色谱科瓦茨保留指数的精确预测

化学
信息科学
期刊:journal of chromatography aDOI:10.1016/j.chroma.2023.464176
【点击此处】阅读全文、收藏及针对性提问
本研究发表于期刊《Journal of Chromatography A》2023年第1705卷。主要作者为Afia Anjum、Jaanus Liigand、Ralph Milford、Vasuk Gautam以及通讯作者David S. Wishart。作者们来自加拿大阿尔伯塔大学（University of Alberta）的多个院系，包括计算科学系、生物科学系、检验医学与病理学系以及药学院。
一、学术背景
该研究属于分析化学与化学信息学交叉领域，具体聚焦于气相色谱-质谱联用技术中关键参数——科瓦茨保留指数（Kováts Retention Index, RI）的预测问题。气相色谱（GC）是分离和鉴定复杂混合物（如代谢物、环境污染物、风味化合物等）的基石技术。然而，化合物的保留时间（Retention Time, RT）受色谱柱类型、仪器条件等多种因素影响，难以直接比较。保留指数通过将目标化合物的保留时间与相邻洗脱的正构烷烃保留时间进行归一化，提供了一个与实验条件无关的标准值，从而极大地方便了不同实验室间数据的比对和化合物的鉴定。
尽管美国国家标准与技术研究院（NIST）等机构维护着包含大量实验测得RI值的数据库，但这些数据仅覆盖了已知化合物的一小部分。通过实验测定所有化合物的RI值既耗时又昂贵。因此，发展基于化合物结构的准确RI预测方法具有迫切需求。过去几十年，研究者们尝试了多种方法，包括基于经验计数的线性回归、利用实验测得的物理化学描述符、以及近年来兴起的各种机器学习（Machine Learning, ML）方法。然而，许多现有预测工具存在局限性：或仅适用于特定类型化合物（如多环芳烃、特定官能团化合物），或仅针对单一固定相（Stationary Phase），或无法处理衍生化（Derivatization，通常为硅烷化以提高化合物挥发性）化合物，或为商业闭源软件。
鉴于此，本研究旨在开发一个名为“保留指数预测器”（Retention Index Predictor，简称RIPred）的免费、公开可用的网络服务器。其核心目标是：实现对气相色谱三大常用固定相（半标准非极性相 Semi-Standard Non-Polar, SSNP；标准非极性相 Standard Non-Polar, SNP；标准极性相 Standard Polar, SP）的科瓦茨RI值进行快速、高精度预测，并同时支持对未衍生化（Base）化合物以及两种最常见的硅烷化衍生形式——三甲基硅烷基（Trimethylsilyl, TMS）和叔丁基二甲基硅烷基（tert–Butyldimethylsilyl, TBDMS）衍生化化合物进行预测，以全面满足GC-MS用户的日常需求。
二、详细工作流程
本研究工作流程复杂且系统，主要包括数据准备与清洗、图神经网络模型开发与训练、衍生化结构自动生成、网络服务器搭建以及大规模预测应用。
数据集的构建与清洗：
数据来源：研究主要使用NIST 17和NIST 20数据库官方发布的科瓦茨RI库。合并并去重后，获得了包含105,075个独特化合物、共122,042条RI记录（涵盖72,093个未衍生化和49,949个衍生化化合物）的初始数据集。每条记录包含化合物结构（通过InChI Key表示）、在SSNP、SNP和SP三种固定相上的实验RI值及其他元数据。
数据标准化与清洗： 结构转换：使用NIH CACTUS服务和PubChemPy API将InChI Key转换为SMILES（简化分子线性输入规范）字符串，并利用RDKit工具包验证结构有效性，剔除无法生成有效分子对象的条目。
质量控制：基于气相色谱分析的实际限制，移除了分子量大于900道尔顿、RI值小于200或大于4000的化合物。
手动纠错与验证：研究过程中发现，NIST数据库中部分化合物的实验RI值或结构信息存在明显错误或矛盾。研究团队利用早期模型（RIPred-alpha）的预测结果，结合与Qu等人预测器（2021）结果的比较，以及对同系物/类似物RI值趋势的分析，手动识别并调查了近1000个可疑数据点。例如，发现某些化合物在NIST中的实验RI值与结构类似物相比异常偏高或偏低；还发现一些衍生化化合物（如“四氢大麻酚，TMS”）被错误命名，其结构实际上并未包含硅原子。经过严格的清洗和验证，最终构建了一个高质量的“干净”数据集，包含105,420条实验科瓦茨RI值，涉及56,229个未衍生化和49,190个衍生化结构，覆盖三种固定相。
数据集划分：根据固定相类型（SSNP, SNP, SP）和是否衍生化，将最终数据集划分为六个子集。每个子集进一步划分为训练集、验证集（用于模型调优）和独立测试集（用于最终性能评估），划分时确保了化学类别、元素比例等特征在子集中的均衡分布。
图神经网络模型的开发与训练：
模型选择与架构：研究采用图神经网络（Graph Neural Network, GNN）作为核心预测模型，其灵感来源于Qu等人（2021）的工作，但在实现上有多处重要改进。模型基于PyTorch框架开发，而非TensorFlow，并采用了不同的原子级特征集和分子图处理方法。
特征工程： 输入：将用户输入的SMILES字符串转换为分子图，其中节点代表原子，边代表化学键。
原子级特征：使用RDKit提取丰富的原子（节点）特征，包括：62种常见元素符号的单热编码、5种形式电荷（-2， -1， 0， +1， +2）、7种显式价态和6种隐式价态，以及每个原子最多10个邻居原子的信息。
路径特征：计算分子图中任意两个节点之间的最短路径（最大路径长度设为3）。路径特征由路径长度、路径中所有键的特征（考虑6种键类型）、键共轭性、环状结构出现与否、以及路径节点是否位于芳香环中等信息拼接而成。
模型结构与训练：GNN模型包含一个输入层、五个隐藏层（每层160个隐藏单元）和一个输出层。模型计算原子注意力分数以生成新的原子嵌入，最终输出RI预测值。训练参数包括：聚合函数为求和（sum），批次大小为100-200，优化器为Adam，学习率为0.0005，使用平均绝对误差（MAE）作为损失函数。为防止过拟合，采用了丢弃法（Dropout，概率0.2）和早停法（Early Stopping）。针对六个数据集，分别训练了独立的GNN模型。模型性能通过十折交叉验证（10-fold Cross-Validation, CV） 进行评估，以获得对测试误差的无偏估计。最终从交叉验证中选择每个数据集上表现最佳的模型，用于在独立的测试集上进行最终评估。
衍生化结构的自动生成与验证：
为使用户仅需提供未衍生化结构即可获得衍生化预测，研究开发了名为“autosilator”的计算衍生化脚本。
该脚本根据用户选择的衍生化类型（TMS或TBDMS），自动将相应的硅烷基团添加到化合物所有化学上合适的官能团（如酸、醇、酚、胺等）上，生成所有可能的衍生化产物，并按添加基团数量命名（如“基化合物名，nTMS/TBDMS”）。
过滤步骤：为确保生成的衍生化结构合理且可被GC-MS分析，应用了两步过滤：1) 移除分子量大于900道尔顿的产物；2) 使用ChEMBL程序对每个生成的结构进行化学合理性和立体化学评估，并分配一个复杂性评分（0-9分）。舍弃复杂性评分大于5的结构，以确保只保留化学上可行的产物（如图2c所示）。
RIPred网络服务器的开发：
服务器前端采用JRuby on Rails框架（基于MVC模式）开发，确保了用户界面的友好性和代码的可重用性。
功能：用户可通过绘制结构或输入SMILES字符串提交化合物；选择固定相类型（SSNP/SNP/SP）和衍生化类型（无/TMS/TBDMS/两者组合）；服务器将调用相应的GNN模型和autosilator脚本，在几毫秒内返回预测的RI值，并以结构化形式展示结果（包括原始/衍生化SMILES、预测RI值、3D结构可视化链接等），所有结果均可下载。
大规模预测应用——人类代谢组数据库：
为展示RIPred的实用价值，研究团队将其应用于人类代谢组数据库（Human Metabolome Database, HMDB 5.0）中所有GC-MS可分析的化合物（分子量<900 Da，共57,648个）。
首先使用autosilator为这些化合物生成了约150万个TMS和TBDMS衍生化结构（同样过滤后）。
然后，利用RIPred的六个预测模型（三种固定相 × 衍生化/未衍生化），对所有未衍生化化合物和衍生化结构进行了RI值预测，总计生成了超过500万条预测的RI值。
这些预测结果被整合到HMDB数据库和RIPred网站的“浏览”功能中，供用户免费查询和下载。
三、主要结果
模型预测性能：
测试集性能：在独立的测试集上，六个最佳RIPred模型表现出优异的预测精度。所有模型的平均绝对误差（MAE）均小于73个RI单位，平均绝对百分比误差（MAPE）通常低于3%（SSNP衍生化模型甚至低于1%）。 SSNP固定相：未衍生化化合物MAE为29.55 RI单位（MAPE 1.62%），衍生化化合物MAE为16.57 RI单位（MAPE 0.78%）。
SNP固定相：未衍生化MAE为45.93 RI单位（MAPE 2.88%），衍生化MAE为38.50 RI单位（MAPE 1.87%）。
SP固定相：未衍生化MAE为72.53 RI单位（MAPE 4.05%），衍生化MAE为46.52 RI单位（MAPE 2.34%）。
预测值与实验值的相关性：所有测试集的预测RI与实验RI之间均呈现高度线性相关，决定系数R²均高于0.94，其中SSNP衍生化模型的R²高达0.9976（图4）。
十折交叉验证稳定性：十折交叉验证得到的测试集MAE均值与上述最佳模型在独立测试集上的结果非常接近，且标准差较小，表明模型具有良好的鲁棒性和泛化能力，未出现明显的过拟合。
与现有最佳模型的比较：
与Qu等人（2021）模型比较：在相同的SSNP固定相测试集上，RIPred模型对衍生化化合物的预测性能（MAE 16.57）与Qu等人模型的性能（MAE 16.84）几乎相同。对于未衍生化化合物，RIPred的MAE（29.55）略高于Qu等人模型（22.56），但仍在同一水平，且作者分析可能源于训练数据集的细微差异。
与Matyushin等人（2021）模型比较：在SSNP固定相上，RIPred对衍生化和未衍生化化合物的预测精度均优于Matyushin等人的模型。在SNP固定相上两者性能相当，而在SP固定相上，Matyushin等人的模型表现略好。
与GolmDB代谢组数据库SVM模型的比较：在一个独立的、由Golm代谢组数据库提供的917个TMS衍生化化合物测试集上，RIPred的预测表现（R²=0.945）与该数据库专门训练的SVM线性回归模型（R²=0.954）性能相当，进一步验证了RIPred在真实生物样本代谢物预测上的可靠性。
数据清洗的重要发现：
研究过程中对NIST数据库的深入检查和清洗，不仅提升了训练数据质量，也揭示了公共数据库中存在的系统性数据问题，包括不合理的RI值、错误的化合物命名以及结构与名称不符的情况。这项工作本身对依赖这些数据库进行化合物鉴定的研究社区具有重要价值。
大规模预测数据产出：
成功为HMDB 5.0中超过5.7万个GC-MS可分析化合物及其150万个衍生化形式，预测了总计超过500万条涵盖三种固定相的RI值。这构成了一个庞大的、公开可用的预测RI资源库，极大地扩展了代谢物鉴定可用的参考数据。
四、结论与价值
本研究成功开发并发布了RIPred，一个免费、开源、高性能且功能全面的气相色谱科瓦茨保留指数预测网络服务器。其科学价值和应用价值体现在：
填补工具空白：RIPred解决了现有RI预测工具在多固定相支持、衍生化化合物预测以及免费公开访问方面的关键不足，为分析化学、代谢组学、环境科学、食品风味分析等广泛领域的研究者提供了一个“一站式”解决方案。
方法学创新与验证：研究采用并改进了基于GNN的预测架构，结合精心设计的原子与路径特征，实现了与当前最先进模型相媲美甚至更优的预测精度，尤其是在SSNP固定相和衍生化化合物预测上。严格的十折交叉验证和多个独立外部测试集的评估，充分证明了模型的可靠性和泛化能力。
数据资源贡献：研究不仅提供了预测工具，还通过清洗NIST数据发现了其中存在的问题，并为HMDB数据库贡献了超过500万条高质量的预测RI数据，建立了目前最大的公开预测RI数据库之一，可直接用于化合物鉴定。
用户友好性与实用性：集成自动衍生化结构生成（autosilator）、直观的网页界面、快速的计算响应以及便捷的数据浏览和下载功能，使RIPred极具实用价值，降低了非信息学背景研究人员使用高级预测工具的门槛。
五、研究亮点
全面的预测能力：首次在一个免费工具中同时实现了对三大常用GC固定相以及未衍生化、TMS和TBDMS衍生化化合物的高精度RI预测。
卓越的预测性能：在多个基准测试和独立验证中，其预测精度达到了当前最先进水平，特别是对SSNP衍生化化合物的预测误差极低（MAE <17， MAPE <0.8%）。
创新的工作流程：结合了高质量的自动化数据清洗流程、改进的图神经网络模型以及智能的衍生化结构生成与过滤算法，形成了一个从数据处理、模型构建到应用服务的完整闭环。
重要的副产物：研究过程中对NIST数据库的深度审计和纠错，为整个科学社区提供了关于参考数据质量的重要见解。
大规模数据应用：将预测能力应用于整个HMDB数据库，生成了海量的预测RI值，创造了极具价值的公共资源。
六、其他有价值内容
研究展望了RIPred的未来发展方向，包括：通过扩大训练数据集（特别是SNP和SP相数据）以进一步提升预测精度；开发批量处理API以满足高通量需求；扩展数据库以涵盖更多类别的化合物（如天然产物、药物、污染物）；以及计划将RIPred与更准确的电子轰击电离质谱（EI-MS）谱图预测工具（如CFM-ID）进行集成，从而构建一个能够同时利用预测RI和预测MS谱图进行化合物鉴定的更强大平台。这预示着RIPred将成为未来整合多维度预测信息以增强未知物鉴定能力的重要基础工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问