分享自:

基于迁移与强化学习的质谱注释优化从头分子生成方法

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.5c01770

基于迁移学习与强化学习的优化从头分子生成(OMG)用于质谱注释:一项综合性研究报告

一、 研究作者、机构与发表信息

本研究由来自塔夫茨大学(Tufts University)的Margaret R. Martin和Soha Hassoun*(通讯作者)共同完成。研究成果以论文形式发表于美国化学会的《Analytical Chemistry》期刊,于2025年9月16日正式在线发表,卷期号为2025, 97, 20734–20742。

二、 学术背景与研究目标

本研究隶属于分析化学与计算生物学交叉领域,具体聚焦于基于质谱的代谢组学数据分析中的关键挑战——质谱注释(Mass Spectra Annotation)。代谢组学通过非靶向质谱技术,能够全面描绘生物系统的生化图谱,在表型分析、生物标志物发现和疾病研究方面潜力巨大。然而,一个长期存在的瓶颈是:绝大多数实验获得的串联质谱图无法被注释,即无法确定其对应的分子结构。

传统的注释方法主要依赖于将未知谱图与已知谱图数据库(如GNPS、NIST)进行匹配。然而,这种方法受限于数据库的覆盖范围,已知化合物的数量(例如PubChem中的1.19亿)与理论上存在的“类药”分子空间(估计达10^33个)相比微不足道。另一种策略是“候选分子检索与排名”范式:首先根据质谱信息(如分子式)从数据库中检索出一组可能的候选分子,然后通过模拟谱图、计算指纹图谱或学习联合嵌入空间等方法,将候选分子的预测谱图与查询谱图进行比较并排名。但这种方法同样受限于已知化合物库,无法发现数据库中不存在的全新分子。

为了突破这一限制,从头分子生成(de novo molecular generation) 技术应运而生,它旨在直接根据给定的约束条件(如分子式)生成全新的、可能不在任何现有数据库中的分子结构。尽管生成式人工智能在药物设计领域已取得进展,但专门针对质谱注释优化的从头生成方法仍处于起步阶段,且存在模型不公开、数据集私有、或性能有限(如在公开基准测试中准确率为0%)等问题。

因此,本研究的目标是开发一种新颖的、高性能的从头分子生成与注释框架,以显著提高质谱注释率,特别是对于未知或未收录的代谢物。研究者提出,结合迁移学习(Transfer Learning)课程学习(Curriculum Learning,一种强化学习策略),可以有效解决标注质谱数据稀缺的问题,引导模型生成与目标谱图匹配的候选分子。

三、 详细研究流程与方法

本研究提出的方法名为优化分子生成(Optimized Molecular Generation, OMG)。其核心思想是将质谱注释任务解耦为两个独立且灵活的步骤:1)分子生成:根据查询谱图对应的分子式,从头生成一系列具有该分子式的候选分子结构;2)候选排名:使用独立的排名模型,评估并排序这些生成的候选分子与查询谱图的匹配程度。

(一) 分子生成步骤

此步骤是OMG的创新核心,旨在利用目标分子式作为指导,生成新颖且相关的候选分子。

  1. 研究基础与对象:研究以Reinvent4的预训练分子生成模型作为起点。该模型是一个基于循环神经网络(RNN)的生成模型,在超过100万个ChEMBL分子结构上进行了预训练,通过SMILES字符串序列的生成来学习化学空间的广泛分布。研究对象为两个公开数据集中的测试集分子:CANOPUS数据集(667个唯一分子式,714个分子,904个谱图)和MassSpecGym数据集(2777个唯一分子式,2998个分子,17556个谱图)。对于每个测试分子(即“目标分子”),其对应的分子式作为生成过程的输入约束。

  2. 迁移学习(Transfer Learning):对于每一个目标分子式,研究者首先从PubChem数据库中检索所有符合该分子式的已知分子结构,构成一个“迁移学习候选集”。这些候选分子经过RDKit验证有效性并过滤掉预训练模型词汇表中不存在的SMILES令牌后,用于对Reinvent4预训练模型进行微调(Finetuning)。微调过程采用与预训练相同的“教师强制”方法,使模型调整其内部的概率分布,倾向于生成与候选集具有相似结构特征且符合目标元素组成的分子。这一步骤使模型从通用的化学知识迁移到与当前查询具体相关的化学子空间。

  3. 课程学习(Curriculum Learning):在迁移学习微调的基础上,研究者设计了一个三阶段的课程学习方案,以进一步精确引导模型生成完全符合目标分子式的分子。这是一种强化学习策略,通过定义由易到难的评分函数来逐步训练模型:

    • 阶段一:评分函数仅检查生成分子的碳原子数是否与目标分子式匹配。匹配则得分为1,否则为0。
    • 阶段二:评分函数检查所有重原子(非氢原子)的类型和数量是否完全匹配目标分子式。
    • 阶段三:评分函数同时检查重原子组成总分子量是否匹配。 模型通过最大化一个增强似然函数来学习,该函数结合了模型自身的生成似然和上述评分函数的反馈。采用DAP策略来对齐增强似然和当前模型似然。通过这种循序渐进的引导,模型被训练成能够稳定地生成具有精确目标分子式的分子。
  4. 候选分子采样:经过上述微调和课程学习后,得到针对特定目标分子式优化的生成模型。研究者对该模型进行采样,生成大量SMILES字符串。随后,使用RDKit验证生成的分子是否有效、唯一(去重),并过滤出那些完全符合目标分子式的分子,形成最终的生成候选集。同时,计算生成分子相对于迁移学习候选集的新颖性,以及生成分子彼此之间的内部多样性,以评估模型的创造性和多样性。

(二) 候选排名步骤

此步骤利用现有的先进谱图-分子匹配模型,对第一步生成的候选分子进行排序。

  1. 排名模型:研究评估了两种近期发表的、可公开获取的排名模型:
    • Jestr:一种基于对比学习的联合嵌入模型。它分别将谱图和分子嵌入到一个共享的潜在空间中,使得匹配的谱图-分子对在空间中距离更近。排名基于查询谱图嵌入向量与各候选分子嵌入向量之间的余弦相似度进行。
    • ESP:一种集成光谱预测模型。它使用基于MLP(多层感知机)和基于GNN(图神经网络)的两个独立模型来预测候选分子的质谱,然后通过一个集成分类器加权组合这两个预测,最后通过比较预测谱与查询谱的余弦相似度进行排名。
  2. 数据处理:对于每个测试谱图,使用第一步生成的候选分子集作为输入。Jestr和ESP模型分别在CANOPUS和MassSpecGym数据集的训练集上进行独立训练,然后在对应的测试集生成候选集上进行排名评估。

(三) 对比基准与评估指标

研究将OMG与当前最新的从头生成方法进行对比,包括MADGenDiffMS。评估在三个层面进行: 1. 生成能力评估:在排名之前,评估生成步骤本身的性能。关键指标包括:准确率(生成的候选集中包含目标分子的查询比例,代表排名的理论上限)、新颖性(生成的有效唯一分子中,不在迁移学习候选集中的比例)、生成候选数(每个查询平均生成的唯一有效分子数量)。 2. 整体注释性能评估:在排名之后,评估OMG作为一个完整注释流程的性能。关键指标包括:Top-1/Top-10准确率(目标分子在排名第1或前10的候选中的比例)、MCES(最大公共边子图距离,衡量结构差异,越小越好)、Tanimoto相似度(基于指纹的分子相似度,越大越好)。 3. 消融实验:通过控制变量法,分别评估仅用迁移学习迁移学习+各阶段课程学习以及仅用课程学习对最终Top-1准确率的影响,以剖析各组件贡献。 4. 迁移学习候选集影响分析:深入分析迁移学习候选集的大小、其与目标分子的平均/最大Tanimoto相似度,如何影响OMG的最终生成和排名性能。

四、 主要研究结果

  1. 分子生成步骤结果

    • CANOPUS数据集上,OMG成功为约80%的查询分子式生成了候选分子,其中13.94% 的查询其生成集中包含了真实目标分子(即生成准确率)。生成分子的平均新颖性为21.23%,平均每个查询产生约200个独特候选分子,内部多样性高达0.75,表明模型没有过拟合且能生成多样化结构。
    • MassSpecGym数据集上,使用PubChem候选集时,生成准确率为7.06%,新颖性为7.15%,平均每个查询生成约147个候选分子。当使用MassSpecGym基准自带的小规模候选集时,生成准确率下降至3.71%,但新颖性提升至11.69%。
    • 部分查询未能生成任何分子,主要原因是Reinvent4的SMILES词汇表有限(无法处理某些特殊原子或子结构)以及未对每个查询进行超参数优化。研究者将此视为一种高精度过滤机制,避免了错误候选的引入。
  2. 整体注释性能结果

    • CANOPUS数据集上,使用Jestr排名的OMG(OMG-Jestr)取得了10.51% 的Top-1准确率和13.38%的Top-10准确率,优于对比方法DiffMS(8.34%, 15.44%)和MADGen(0.91%, 1.13%)。在仅考虑成功生成候选的查询子集时,OMG-Jestr的Top-1准确率提升至14.14%,且结构相似性指标(MCES更低,Tanimoto更高)优于DiffMS。
    • 在更具挑战性的MassSpecGym数据集上,OMG-ESP表现最佳,取得了2.42% 的Top-1准确率和5.53%的Top-10准确率,显著超越了DiffMS(2.30%, 4.25%)和MADGen(1.31%, 1.54%),而基准的Transformer方法和随机生成方法准确率为0%。同样,在成功生成的子集上,OMG-ESP的Top-1准确率达到4.66%,且结构相似性指标表现优异。
  3. 消融实验与机制分析结果

    • 消融实验清晰证明了各组件的重要性:仅使用迁移学习(TL)在CANOPUS上获得4.42%的Top-1准确率;依次加入三个阶段课程学习(CL)后,准确率逐步提升至9.07%, 9.73%,最终达到10.51%。而仅使用课程学习(无迁移学习)的效果极差(1.33%),凸显了迁移学习提供的先验化学知识对于引导生成过程至关重要,课程学习在此基础上进行精细化调整。
    • 迁移学习候选集分析揭示了关键趋势:较小的候选集以及与目标分子更相似的候选集,倾向于带来更高的生成和排名性能(即更高的目标分子与排名第一分子的Tanimoto相似度)。过大的候选集虽然增加了多样性,但可能引入了过多噪声,降低了生成的特异性。这为如何构建有效的引导集提供了实践指导。

五、 研究结论与价值

本研究成功开发并验证了OMG框架,这是首个将预训练生成模型迁移学习、课程学习相结合,用于质谱从头注释的工作。研究得出结论:

  1. 方法论有效性:OMG通过解耦生成与排名,并利用迁移学习和课程学习策略,能够有效生成新颖且与目标相关的候选分子,并在两个公开基准数据集上取得了超越现有基线的注释准确率。
  2. 关键因素:迁移学习是OMG性能提升的核心驱动力,它使模型能够利用海量未标记的化学结构知识。课程学习在此基础上进一步优化了生成精度。迁移学习候选集的质量(大小和与目标的相似性)对最终性能有显著影响。
  3. 应用价值:OMG为代谢组学中发现全新、未收录的代谢物提供了强有力的计算工具。它不依赖于成对的谱图-结构训练数据,因此特别适用于注释与现有训练数据关联性不强的新分子。
  4. 科学意义:该研究展示了如何将人工智能领域的先进学习策略(迁移学习、强化学习/课程学习)创造性地应用于分析化学的具体难题中,为解决“暗物质化学”的鉴定问题开辟了一条新路径。

六、 研究亮点

  1. 创新性框架:首次提出并实现了结合迁移学习和课程学习的从头分子生成框架(OMG)用于质谱注释,将问题重构为基于强化学习的分子优化任务。
  2. 性能突破:在公开基准测试集MassSpecGym上实现了显著的性能提升(Top-1准确率2.42%),超越了此前表现最好的方法,证明了该框架的有效性。
  3. 深入机理分析:通过系统的消融实验和候选集分析,不仅证明了方法有效,更深入揭示了迁移学习的关键作用以及候选集特性对性能的影响规律,为后续研究提供了重要见解。
  4. 灵活性与可扩展性:生成与排名解耦的设计使得OMG可以轻松集成未来更先进的生成模型或排名模型,具有很好的模块化和可扩展性。
  5. 解决数据稀缺问题:该方法巧妙避开了对大量标注谱图-结构对数据的依赖,利用海量无标注分子结构(PubChem)和少量目标相关的分子进行引导,为小数据场景下的AI应用提供了范例。

七、 其他有价值内容

研究也坦诚讨论了OMG当前存在的局限性: 1. 依赖预训练模型词汇表:Reinvent4有限的SMILES词汇表导致某些含有特殊原子(如碘、氟)的分子无法被处理,限制了其适用范围。 2. 计算成本:每个查询分子式都需要独立的微调和课程学习过程,导致较长的运行时间(平均每个分子约13.72分钟)。 3. 未利用谱图信息进行生成:目前的生成步骤仅依赖于分子式,而未整合查询谱图本身的任何信息。这限制了生成步骤的针对性。 4. 超参数调优:研究使用了统一的超参数,未对每个查询进行个性化优化,这可能限制了性能的进一步提升。

针对这些局限性,作者指出了未来的改进方向:开发具有更全面词汇表的预训练生成器、实现自动超参数选择、设计更小更相关的迁移学习候选集,以及最重要的——探索如何将谱图信息直接融入生成过程的指导中。这些方向为后续研究指明了有潜力的突破口。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com