从反相色谱到HILIC：图变换器实现保留时间的独立于方法的机器学习预测

分享自：
从反相色谱到HILIC：图变换器实现保留时间的独立于方法的机器学习预测

期刊:anal. chem.DOI:10.1021/acs.analchem.4c05859
这篇文档属于类型a，是一篇关于液相色谱保留时间预测的原创性研究论文。以下为详细的学术报告：
作者及发表信息该研究由Cailum M. K. Stienstra、Emir Nazdrajić和W. Scott Hopkins*（通讯作者）合作完成，作者单位均为加拿大滑铁卢大学（University of Waterloo）化学系。研究发表于Analytical Chemistry期刊，2025年第97卷，页码4461–4472，标题为《From Reverse Phase Chromatography to HILIC: Graph Transformers Power Method-Independent Machine Learning of Retention Times》。
学术背景研究领域：
 该研究属于分析化学与机器学习交叉领域，聚焦液相色谱（Liquid Chromatography, LC）保留时间（Retention Time, RT）的预测问题。
研究动机：
 液相色谱是分离复杂混合物（如代谢物、肽类、药物）的核心技术，但其保留时间受色谱柱类型、流动相梯度等实验参数影响，导致跨方法比较困难。传统机器学习模型仅能针对单一色谱方法预测，缺乏普适性。因此，作者提出首个基于单一模型的、方法无关的保留时间预测框架，以解决通用性问题。
研究目标：
 1. 开发一种基于图神经网络（Graph Neural Network, GNN）的模型Graphormer-RT，实现跨191种反相色谱（RP-LC）和49种亲水相互作用色谱（HILIC）方法的保留时间预测。
 2. 探索模型在未训练色谱方法上的泛化能力。
 3. 验证模型作为“基础模型”（Foundation Model）的潜力，支持迁移学习。
研究流程与实验设计1. 数据准备与预处理数据集：
 使用ReSOLUTE数据集（包含172,416个保留时间，涉及392种色谱方法），经过过滤后保留：
 - RP-LC：142,688个保留时间（191种方法，89,643个分子）。
 - HILIC：4,373个保留时间（49种方法）。
数据过滤标准：
 - 仅保留二元流动相（如水-甲醇或水-乙腈）且流速恒定的梯度方法。
 - 排除死时间（t₀）>3分钟或含非保留分子的数据。
特征工程：
 - 色谱参数编码：包括柱长、内径、粒径、死时间、流动相组成（如pH、添加剂）、梯度曲线拐点（最多3个）等。
 - 分子结构编码：通过SMILES字符串生成分子图，节点（原子）和边（化学键）特征包括杂化类型、Gasteiger电荷等。
2. 模型架构：Graphormer-RT核心创新：
 - 全局色谱节点：将色谱参数通过预训练的编码器转化为稠密向量，作为分子图的全局节点，使模型能在分子结构上下文中学习色谱条件的影响。
 - 图注意力机制：利用多头自注意力（Multi-head Self-Attention）捕捉原子间的长程相互作用（如氢键）。
训练细节：
 - 使用8层Graphormer，嵌入维度512，64个注意力头。
 - 损失函数为均方根误差（RMSE），优化器为Adam。
 - RP-LC模型训练7小时，HILIC模型微调15分钟（基于RP-LC预训练）。
3. 验证与测试交叉验证：
 - 5折交叉验证，测试集平均绝对误差（MAE）：
 - RP-LC：29.3 ± 0.6秒（优于单方法训练的RT-Transformer，MAE=27.8秒）。
 - HILIC：42.4 ± 2.9秒（首次实现跨方法预测）。
外部验证：
 - 排除6种方法（3种RP-LC、3种HILIC）用于测试模型泛化能力。
 - 结果：4种方法MAE分钟，但复杂梯度方法（如方法0029）预测失败（MAE=596.8秒），需进一步优化梯度编码。
主要结果与逻辑关联1. RP-LC预测性能色谱条件影响：
 甲醇（MeOH）作为有机相时误差（MAE=28.9秒）略优于乙腈（ACN，MAE=26.6秒）。
 
Waters色谱柱预测更准（MAE=19.8秒），Agilent误差较高（MAE=37.7秒），可能与硬件差异有关。
 
时间参数：短死时间（t₀分钟）方法误差更低（MAE=16.6秒）。
 
2. HILIC预测性能迁移学习（基于RP-LC预训练）提升有限（MAE=42.4秒 vs. 未预训练的44.5秒），表明两种色谱机制差异显著。
 
部分未训练方法（如方法0375）表现优异（MAE=25.5秒），提示模型可通过相似方法类推学习。
 
3. 消融实验关键模块：移除梯度特征使误差增加至33.4秒，移除色谱柱特征增至32.0秒，证明两者均不可或缺。
 
全局节点必要性：若无色谱参数编码，MAE升至76.8秒，表明分子-色谱交互的上下文学习至关重要。
 
结论与价值科学价值：
 1. 方法普适性：首次实现单一模型对RP-LC和HILIC保留时间的跨方法预测，无需方法特异性参数校准。
 2. 基础模型潜力：通过迁移学习可快速适配新方法，减少数据需求。
应用价值：
 1. 代谢物注释：结合质谱数据，可缩小候选结构范围（误差窗口约30秒）。
 2. 色谱方法优化：通过模拟不同条件（如梯度、流速）加速方法开发。
研究亮点创新架构：引入全局色谱节点，将色谱参数与分子结构联合建模。
 
大规模验证：覆盖191种RP-LC和49种HILIC方法，远超同类研究。
 
开源共享：代码与数据公开于GitHub（https://github.com/hopkinslaboratory/graphormer-rt）。
 
其他有价值内容局限性：复杂梯度方法的预测需改进，未来可扩展至等度洗脱（Isocratic）条件。
 
理论启示：验证了保留时间预测的两大任务（分子-固定相相互作用、色谱条件缩放）可统一建模。
 
此研究为分析化学与AI融合的典范，为高通量组学数据的自动化分析提供了新工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问