分享自:

基于质谱的分子扩散生成模型DiffMS

期刊:Proceedings of the 42nd International Conference on Machine Learning

基于扩散模型的质谱条件分子生成:DiffMS 方法及其在结构解析中的应用

本研究由来自麻省理工学院(Massachusetts Institute of Technology)的 Montgomery Bohde、Mrunali Manjrekar、Runzhong Wang、Connor W. Coley 以及来自德州农工大学(Texas A&M University)的 Shuiwang Ji 共同完成。研究论文“diffms: diffusion generation of molecules conditioned on mass spectra”发表于 Proceedings of the 42nd International Conference on Machine Learning (PMLR 267, 2025)。这项工作提出了一种名为 DiffMS 的创新模型,旨在解决质谱分析中一个核心且极具挑战性的问题:如何根据给定的串联质谱(MS/MS)数据从头生成(de novo generation)对应的候选分子结构。

学术背景与研究目标

质谱(Mass Spectrometry, MS)是现代分析化学的基石技术,尤其在未知化合物(如代谢物、环境污染物、药物分子等)的结构鉴定中扮演着不可或缺的角色。串联质谱(MS/MS)技术能够提供丰富的碎片离子信息,理论上可用于推断原始分子的结构。然而,从质谱数据直接、自动地推导出唯一的分子结构是一个公认的难题。这源于计算和化学的双重挑战:从计算角度看,可能的分子片段组合空间呈指数级增长,属于NP-hard的组合优化问题;从化学角度看,不同的异构体(如图1所示的亮氨酸和异亮氨酸)可能产生几乎无法区分的质谱图,使得单一谱图无法唯一确定一个结构。此外,许多在实验中被发现的新型化合物(“代谢物暗物质”)并不存在于现有的化学数据库中,使得基于库检索的方法失效。

因此,发展“逆推”(inverse)模型,即从实验质谱直接生成可能的结构,而非仅仅从库中检索,成为了一个关键研究方向。此前的一些尝试包括:使用语言模型(如MS2Mol, Spec2Mol)将质谱数据编码后自回归地生成SMILES字符串;或使用多阶段方法,先预测分子指纹(如CSI:FingerID, MIST),再通过其他模型(如MSNovelist, NeuralDecipher)从指纹解码生成结构。然而,这些方法存在一些局限性:自回归模型难以严格融入化学式约束,且未充分考虑质谱和分子图的置换不变性;而两阶段方法可能受限于中间表示(如指纹、骨架)预测的准确性,且在整体性能上提升有限。

DiffMS 研究的核心目标正是为了克服这些局限性,开发一个更准确、高效的端到端(end-to-end)生成模型。其核心洞见在于:1)充分利用现有工具(如SIRIUS, MIST-CF)可以相对准确地从质谱数据中推断出未知分子的化学式(即重原子组成),将这一关键信息作为强约束条件可以极大缩小生成空间;2)利用近乎无限量的“指纹-结构”对数据进行大规模的预训练,以弥补“谱图-结构”对数据量(通常仅数万)的不足,从而训练出更强大的解码器。最终,该研究旨在建立一个能够在给定质谱和化学式的条件下,生成结构合理、准确度高的候选分子列表的先进框架。

详细研究方法与流程

DiffMS 的整体架构是一个编码器-解码器(encoder-decoder)模型,遵循预训练-微调(pretraining-finetuning)的范式。其工作流程主要包含三个核心部分:质谱编码器、图扩散解码器以及端到端微调。

1. 质谱编码器:从谱图到结构嵌入 编码器的任务是将输入的质谱(一组m/z和强度对)转换成一个蕴含结构信息的固定维度嵌入向量(condition y)。研究采用了来自MIST模型的“公式Transformer”架构。该编码器的关键创新在于融入了领域知识:首先,它使用外部工具(如SIRIUS)为质谱图中的每个碎片峰分配一个假设的化学式;然后,通过一个集合Transformer(Set Transformer)处理这些带有化学式信息的峰,该结构能够隐式地建模碎片离子之间的成对中性丢失(pairwise neutral losses),这是质谱解析中一个非常重要的化学过程。最终,提取对应于前体离子峰的嵌入作为整个分子的结构条件表示。为了提高编码器提取结构信息的能力,研究首先在目标数据集(如NPLib1, MassSpecGym)上对编码器进行预训练,但其训练目标是预测分子的摩根指纹(Morgan fingerprint),而非直接生成结构。这一预训练步骤旨在迫使编码器学习从质谱中提取更本质的、与结构相关的特征。

2. 图扩散解码器:从嵌入和化学式到分子图 解码器的核心任务是在给定化学式(确定原子类型和数量)和来自编码器的结构嵌入y的条件下,生成正确的分子图(即原子间的键连接)。DiffMS 采用了 离散图扩散(Discrete Graph Diffusion) 模型,这被认为是本研究的核心方法创新。 * 分子表示:分子被表示为一个图 M = (A, X, Y)。其中 X 是从已知化学式得到的原子类型(节点特征),是固定的;Y 是条件特征(即编码器输出);A 是需要生成的邻接矩阵,其元素表示原子对之间的键类型(单键、双键、三键、芳香键或无键)。 * 扩散过程:扩散过程在邻接矩阵 A 上进行。前向过程(Forward Process)从真实的分子图(A^0)开始,在多个时间步 t 中逐步添加“噪声”。这里的“噪声”是指以一定的概率随机将边类型替换为其他类型(包括“无键”)。噪声调度采用余弦计划,并且最终会收敛到一个与训练数据中键类型分布相关的先验分布,而非均匀分布,这有助于训练。 * 去噪与生成:反向过程(Denoising Process)由一个神经网络 φ_θ 学习。该网络以带噪声的分子图 M^t = (A^t, X, Y) 为输入,目标是预测去噪后的原始邻接矩阵 A^0 的概率分布。网络架构基于图Transformer,分别对边特征 A^t、节点特征 X 和条件 Y 进行编码,然后通过多层图Transformer进行信息融合,最后通过一个MLP预测每条边的键类型概率。训练损失是预测概率与真实键类型之间的交叉熵损失。 * 采样:要生成新分子,首先从先验分布中采样一个完全随机的、噪声化的邻接矩阵 A^T,然后使用训练好的去噪网络 φ_θ 迭代地进行 T 步采样,逐步去除噪声,最终得到候选分子图 A^0。由于化学式 X 是固定的,该过程天然地保证了生成分子的重原子组成与给定化学式一致。 * 解码器预训练:这是DiffMS框架的另一大亮点。为了训练一个强大的解码器,研究利用了大量易得的“指纹-结构”对数据(从DSSTox、HMDB、COCONUT、MOSES等库中收集了约280万对)进行预训练。在预训练阶段,条件 Y 直接使用分子的摩根指纹,而不是质谱嵌入。这使得模型能够从海量数据中学习复杂的化学结构规律,而不受限于稀缺的“谱图-结构”数据。

3. 端到端微调与评估 在分别预训练好编码器和解码器后,将它们组合起来进行端到端微调。此时,编码器接收真实质谱并输出嵌入 y,解码器则基于 y 和真实化学式来生成分子,并通过扩散损失进行优化。在推理时,对于每个测试质谱,DiffMS 会采样100个候选分子,剔除无效或非连通的结构,然后根据生成频率进行排序,得到top-k的候选列表。 研究在两个公认的基准数据集上进行了评估:NPLib1 (Canopus训练集数据) 和更具挑战性的 MassSpecGym。评估指标包括:Top-k准确率(真实分子是否在前k个预测中)、Top-k最大Tanimoto相似度(结构相似性)、Top-k最小MCES(最大公共边子图,一种图编辑距离)。为了公平比较,研究还重新实现或复现了几个重要的基线方法,包括Spec2Mol、MIST+MSNovelist(使用MIST指纹替代CSI:FingerID)、MIST+NeuralDecipher以及文献中报告的MADGen和SMILES Transformer等结果。

主要研究结果

实验结果表明,DiffMS 在两个基准测试上均取得了最先进的性能。 在 NPLib1 数据集上,DiffMS 的 Top-1 准确率达到 8.34%,Top-10 准确率达到 15.44%,显著优于所有基线方法(如MIST+MSNovelist的5.40%/11.04%,MADGen的2.10%/2.39%)。同时,其MCES和Tanimoto相似度指标也表现优异或具有竞争力。 在更具挑战性的 MassSpecGym 数据集上(该数据集确保了测试集分子与训练集分子具有显著差异),DiffMS 的优势更加明显。其 Top-1 和 Top-10 准确率分别为 2.30% 和 4.25%,而次优的MADGen仅为1.31%和1.54%。其他多个基线方法在该数据集上的准确率甚至为0%。这表明 DiffMS 在应对“分布外”(out-of-distribution)的新型分子生成任务时,具有更强的鲁棒性。 此外,研究还报告了 DiffMS 生成分子的有效性(100%有效,因基于图表示),以及在“有意义匹配”(Tanimoto ≥ 0.4)和“接近匹配”(Tanimoto ≥ 0.675)指标上的显著优势。即使在未能精确匹配真实结构的情况下,DiffMS 也经常能生成结构非常相似的分子(如图4所示),这对于领域专家缩小化学空间搜索范围具有重要实用价值。

消融实验(Ablation Studies) 有力地证明了模型设计的有效性: 1. 编码器预训练:移除编码器的指纹预测预训练后,NPLib1上的Top-1准确率从8.34%降至4.36%,证明了预训练有助于编码器学习更有物理意义的谱图表示。 2. 解码器预训练规模:逐步增加用于解码器预训练的“指纹-结构”对数据量(从0到280万),模型性能持续提升(如图5所示)。Top-1准确率从无预训练的2.22%稳步上升到全量预训练的8.34%。这证明了利用海量化学数据预训练是提升性能的有效途径,且未来仍有扩展空间。 3. 公式来源:使用MIST-CF工具预测的化学式(而非真实化学式)作为条件时,DiffMS的性能仅略有下降,但仍然保持强劲。这表明 DiffMS 可以与现有的公式推断工具无缝集成,适用于真实化学式未知的场景。 4. 先验分布:比较了使用边际分布、空图(全无键)和全连接图(全单键)作为扩散起点先验的效果,结果显示与数据接近的边际分布和空图先验表现最佳,验证了设计选择。

研究结论与价值

本研究成功提出了 DiffMS,这是首个将化学式约束与离散图扩散模型相结合,用于质谱条件分子生成的端到端框架。通过创新的编码器-解码器架构和分阶段的预训练策略,DiffMS 显著提升了从质谱从头生成分子结构的准确性和可靠性。其科学价值在于: * 方法论创新:将离散图扩散模型引入质谱解析领域,提供了一种能自然处理组合约束(化学式)、置换不变性和条件不确定性(一对多映射)的生成范式。 * 性能突破:在标准基准测试上实现了 state-of-the-art 的性能,特别是在更具现实意义的挑战性数据集上表现突出。 * 实用性强:生成的候选分子即使不完全正确,也通常具有高结构相似性,能为化学家提供宝贵的线索。模型能够与现有公式推断工具协同工作,形成了完整的工作流。 该研究的应用前景广阔,有望加速质谱在代谢组学、环境分析、药物发现等领域中对未知化合物的鉴定流程,推动化学和生物学研究。

研究亮点

  1. 公式约束的扩散生成:首次将离散图扩散模型与确定的化学式约束相结合,用于质谱条件下的分子生成,确保了生成分子的基本组成正确,并优雅地处理了生成过程的组合性。
  2. 大规模预训练-微调框架:创造性地利用海量“指纹-结构”对数据预训练解码器,克服了“谱图-结构”对数据稀缺的瓶颈,并通过实验证明了性能随预训练数据规模的可扩展性。
  3. 领域知识融合的编码器:采用了能建模中性丢失的公式Transformer作为编码器,将质谱解析的化学直觉融入深度学习模型。
  4. 全面的评估与消融:在严谨的基准测试上对比了大量基线,并进行了深入的消融研究,清晰地验证了每个核心组件的贡献,为后续研究提供了坚实参考。

其他有价值内容

论文附录提供了丰富的额外信息,包括更多生成分子示例(成功与失败的案例)、不同Top-k下的详细性能曲线、不同先验分布的对比、以及使用不同公式推断工具(Buddy, MIST-CF)的准确率分析。这些内容进一步增强了研究的透明度和可复现性。代码已在GitHub上公开,促进了该领域的开放科学发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com