基于迁移学习与强化学习的优化从头分子生成(OMG)用于质谱注释:一项综合性研究报告
一、 研究作者、机构与发表信息
本研究由来自塔夫茨大学(Tufts University)的Margaret R. Martin和Soha Hassoun*(通讯作者)共同完成。研究成果以论文形式发表于美国化学会的《Analytical Chemistry》期刊,于2025年9月16日正式在线发表,卷期号为2025, 97, 20734–20742。
二、 学术背景与研究目标
本研究隶属于分析化学与计算生物学交叉领域,具体聚焦于基于质谱的代谢组学数据分析中的关键挑战——质谱注释(Mass Spectra Annotation)。代谢组学通过非靶向质谱技术,能够全面描绘生物系统的生化图谱,在表型分析、生物标志物发现和疾病研究方面潜力巨大。然而,一个长期存在的瓶颈是:绝大多数实验获得的串联质谱图无法被注释,即无法确定其对应的分子结构。
传统的注释方法主要依赖于将未知谱图与已知谱图数据库(如GNPS、NIST)进行匹配。然而,这种方法受限于数据库的覆盖范围,已知化合物的数量(例如PubChem中的1.19亿)与理论上存在的“类药”分子空间(估计达10^33个)相比微不足道。另一种策略是“候选分子检索与排名”范式:首先根据质谱信息(如分子式)从数据库中检索出一组可能的候选分子,然后通过模拟谱图、计算指纹图谱或学习联合嵌入空间等方法,将候选分子的预测谱图与查询谱图进行比较并排名。但这种方法同样受限于已知化合物库,无法发现数据库中不存在的全新分子。
为了突破这一限制,从头分子生成(de novo molecular generation) 技术应运而生,它旨在直接根据给定的约束条件(如分子式)生成全新的、可能不在任何现有数据库中的分子结构。尽管生成式人工智能在药物设计领域已取得进展,但专门针对质谱注释优化的从头生成方法仍处于起步阶段,且存在模型不公开、数据集私有、或性能有限(如在公开基准测试中准确率为0%)等问题。
因此,本研究的目标是开发一种新颖的、高性能的从头分子生成与注释框架,以显著提高质谱注释率,特别是对于未知或未收录的代谢物。研究者提出,结合迁移学习(Transfer Learning) 和课程学习(Curriculum Learning,一种强化学习策略),可以有效解决标注质谱数据稀缺的问题,引导模型生成与目标谱图匹配的候选分子。
三、 详细研究流程与方法
本研究提出的方法名为优化分子生成(Optimized Molecular Generation, OMG)。其核心思想是将质谱注释任务解耦为两个独立且灵活的步骤:1)分子生成:根据查询谱图对应的分子式,从头生成一系列具有该分子式的候选分子结构;2)候选排名:使用独立的排名模型,评估并排序这些生成的候选分子与查询谱图的匹配程度。
(一) 分子生成步骤
此步骤是OMG的创新核心,旨在利用目标分子式作为指导,生成新颖且相关的候选分子。
研究基础与对象:研究以Reinvent4的预训练分子生成模型作为起点。该模型是一个基于循环神经网络(RNN)的生成模型,在超过100万个ChEMBL分子结构上进行了预训练,通过SMILES字符串序列的生成来学习化学空间的广泛分布。研究对象为两个公开数据集中的测试集分子:CANOPUS数据集(667个唯一分子式,714个分子,904个谱图)和MassSpecGym数据集(2777个唯一分子式,2998个分子,17556个谱图)。对于每个测试分子(即“目标分子”),其对应的分子式作为生成过程的输入约束。
迁移学习(Transfer Learning):对于每一个目标分子式,研究者首先从PubChem数据库中检索所有符合该分子式的已知分子结构,构成一个“迁移学习候选集”。这些候选分子经过RDKit验证有效性并过滤掉预训练模型词汇表中不存在的SMILES令牌后,用于对Reinvent4预训练模型进行微调(Finetuning)。微调过程采用与预训练相同的“教师强制”方法,使模型调整其内部的概率分布,倾向于生成与候选集具有相似结构特征且符合目标元素组成的分子。这一步骤使模型从通用的化学知识迁移到与当前查询具体相关的化学子空间。
课程学习(Curriculum Learning):在迁移学习微调的基础上,研究者设计了一个三阶段的课程学习方案,以进一步精确引导模型生成完全符合目标分子式的分子。这是一种强化学习策略,通过定义由易到难的评分函数来逐步训练模型:
候选分子采样:经过上述微调和课程学习后,得到针对特定目标分子式优化的生成模型。研究者对该模型进行采样,生成大量SMILES字符串。随后,使用RDKit验证生成的分子是否有效、唯一(去重),并过滤出那些完全符合目标分子式的分子,形成最终的生成候选集。同时,计算生成分子相对于迁移学习候选集的新颖性,以及生成分子彼此之间的内部多样性,以评估模型的创造性和多样性。
(二) 候选排名步骤
此步骤利用现有的先进谱图-分子匹配模型,对第一步生成的候选分子进行排序。
(三) 对比基准与评估指标
研究将OMG与当前最新的从头生成方法进行对比,包括MADGen和DiffMS。评估在三个层面进行: 1. 生成能力评估:在排名之前,评估生成步骤本身的性能。关键指标包括:准确率(生成的候选集中包含目标分子的查询比例,代表排名的理论上限)、新颖性(生成的有效唯一分子中,不在迁移学习候选集中的比例)、生成候选数(每个查询平均生成的唯一有效分子数量)。 2. 整体注释性能评估:在排名之后,评估OMG作为一个完整注释流程的性能。关键指标包括:Top-1/Top-10准确率(目标分子在排名第1或前10的候选中的比例)、MCES(最大公共边子图距离,衡量结构差异,越小越好)、Tanimoto相似度(基于指纹的分子相似度,越大越好)。 3. 消融实验:通过控制变量法,分别评估仅用迁移学习、迁移学习+各阶段课程学习以及仅用课程学习对最终Top-1准确率的影响,以剖析各组件贡献。 4. 迁移学习候选集影响分析:深入分析迁移学习候选集的大小、其与目标分子的平均/最大Tanimoto相似度,如何影响OMG的最终生成和排名性能。
四、 主要研究结果
分子生成步骤结果:
整体注释性能结果:
消融实验与机制分析结果:
五、 研究结论与价值
本研究成功开发并验证了OMG框架,这是首个将预训练生成模型与迁移学习、课程学习相结合,用于质谱从头注释的工作。研究得出结论:
六、 研究亮点
七、 其他有价值内容
研究也坦诚讨论了OMG当前存在的局限性: 1. 依赖预训练模型词汇表:Reinvent4有限的SMILES词汇表导致某些含有特殊原子(如碘、氟)的分子无法被处理,限制了其适用范围。 2. 计算成本:每个查询分子式都需要独立的微调和课程学习过程,导致较长的运行时间(平均每个分子约13.72分钟)。 3. 未利用谱图信息进行生成:目前的生成步骤仅依赖于分子式,而未整合查询谱图本身的任何信息。这限制了生成步骤的针对性。 4. 超参数调优:研究使用了统一的超参数,未对每个查询进行个性化优化,这可能限制了性能的进一步提升。
针对这些局限性,作者指出了未来的改进方向:开发具有更全面词汇表的预训练生成器、实现自动超参数选择、设计更小更相关的迁移学习候选集,以及最重要的——探索如何将谱图信息直接融入生成过程的指导中。这些方向为后续研究指明了有潜力的突破口。