分享自:

从反相色谱到HILIC:图变换器实现保留时间的独立于方法的机器学习预测

期刊:anal. chem.DOI:10.1021/acs.analchem.4c05859

这篇文档属于类型a,是一篇关于液相色谱保留时间预测的原创性研究论文。以下为详细的学术报告:


作者及发表信息

该研究由Cailum M. K. StienstraEmir NazdrajićW. Scott Hopkins*(通讯作者)合作完成,作者单位均为加拿大滑铁卢大学(University of Waterloo)化学系。研究发表于Analytical Chemistry期刊,2025年第97卷,页码4461–4472,标题为《From Reverse Phase Chromatography to HILIC: Graph Transformers Power Method-Independent Machine Learning of Retention Times》。


学术背景

研究领域
该研究属于分析化学与机器学习交叉领域,聚焦液相色谱(Liquid Chromatography, LC)保留时间(Retention Time, RT)的预测问题。

研究动机
液相色谱是分离复杂混合物(如代谢物、肽类、药物)的核心技术,但其保留时间受色谱柱类型、流动相梯度等实验参数影响,导致跨方法比较困难。传统机器学习模型仅能针对单一色谱方法预测,缺乏普适性。因此,作者提出首个基于单一模型的、方法无关的保留时间预测框架,以解决通用性问题。

研究目标
1. 开发一种基于图神经网络(Graph Neural Network, GNN)的模型Graphormer-RT,实现跨191种反相色谱(RP-LC)和49种亲水相互作用色谱(HILIC)方法的保留时间预测。
2. 探索模型在未训练色谱方法上的泛化能力。
3. 验证模型作为“基础模型”(Foundation Model)的潜力,支持迁移学习。


研究流程与实验设计

1. 数据准备与预处理

数据集
使用ReSOLUTE数据集(包含172,416个保留时间,涉及392种色谱方法),经过过滤后保留:
- RP-LC:142,688个保留时间(191种方法,89,643个分子)。
- HILIC:4,373个保留时间(49种方法)。

数据过滤标准
- 仅保留二元流动相(如水-甲醇或水-乙腈)且流速恒定的梯度方法。
- 排除死时间(t₀)>3分钟或含非保留分子的数据。

特征工程
- 色谱参数编码:包括柱长、内径、粒径、死时间、流动相组成(如pH、添加剂)、梯度曲线拐点(最多3个)等。
- 分子结构编码:通过SMILES字符串生成分子图,节点(原子)和边(化学键)特征包括杂化类型、Gasteiger电荷等。

2. 模型架构:Graphormer-RT

核心创新
- 全局色谱节点:将色谱参数通过预训练的编码器转化为稠密向量,作为分子图的全局节点,使模型能在分子结构上下文中学习色谱条件的影响。
- 图注意力机制:利用多头自注意力(Multi-head Self-Attention)捕捉原子间的长程相互作用(如氢键)。

训练细节
- 使用8层Graphormer,嵌入维度512,64个注意力头。
- 损失函数为均方根误差(RMSE),优化器为Adam。
- RP-LC模型训练7小时,HILIC模型微调15分钟(基于RP-LC预训练)。

3. 验证与测试

交叉验证
- 5折交叉验证,测试集平均绝对误差(MAE):
- RP-LC:29.3 ± 0.6秒(优于单方法训练的RT-Transformer,MAE=27.8秒)。
- HILIC:42.4 ± 2.9秒(首次实现跨方法预测)。

外部验证
- 排除6种方法(3种RP-LC、3种HILIC)用于测试模型泛化能力。
- 结果:4种方法MAE分钟,但复杂梯度方法(如方法0029)预测失败(MAE=596.8秒),需进一步优化梯度编码。


主要结果与逻辑关联

1. RP-LC预测性能

  • 色谱条件影响
    • 甲醇(MeOH)作为有机相时误差(MAE=28.9秒)略优于乙腈(ACN,MAE=26.6秒)。
    • Waters色谱柱预测更准(MAE=19.8秒),Agilent误差较高(MAE=37.7秒),可能与硬件差异有关。
  • 时间参数:短死时间(t₀分钟)方法误差更低(MAE=16.6秒)。

2. HILIC预测性能

  • 迁移学习(基于RP-LC预训练)提升有限(MAE=42.4秒 vs. 未预训练的44.5秒),表明两种色谱机制差异显著。
  • 部分未训练方法(如方法0375)表现优异(MAE=25.5秒),提示模型可通过相似方法类推学习。

3. 消融实验

  • 关键模块:移除梯度特征使误差增加至33.4秒,移除色谱柱特征增至32.0秒,证明两者均不可或缺。
  • 全局节点必要性:若无色谱参数编码,MAE升至76.8秒,表明分子-色谱交互的上下文学习至关重要。

结论与价值

科学价值
1. 方法普适性:首次实现单一模型对RP-LC和HILIC保留时间的跨方法预测,无需方法特异性参数校准。
2. 基础模型潜力:通过迁移学习可快速适配新方法,减少数据需求。

应用价值
1. 代谢物注释:结合质谱数据,可缩小候选结构范围(误差窗口约30秒)。
2. 色谱方法优化:通过模拟不同条件(如梯度、流速)加速方法开发。


研究亮点

  1. 创新架构:引入全局色谱节点,将色谱参数与分子结构联合建模。
  2. 大规模验证:覆盖191种RP-LC和49种HILIC方法,远超同类研究。
  3. 开源共享:代码与数据公开于GitHub(https://github.com/hopkinslaboratory/graphormer-rt)。

其他有价值内容

  • 局限性:复杂梯度方法的预测需改进,未来可扩展至等度洗脱(Isocratic)条件。
  • 理论启示:验证了保留时间预测的两大任务(分子-固定相相互作用、色谱条件缩放)可统一建模。

此研究为分析化学与AI融合的典范,为高通量组学数据的自动化分析提供了新工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com