基于质谱的分子扩散生成模型DiffMS

分享自：
基于质谱的分子扩散生成模型DiffMS

化学
信息科学
人工智能
计算机科学
分析化学
期刊:Proceedings of the 42nd International Conference on Machine Learning
【点击此处】阅读全文、收藏及针对性提问
基于扩散模型的质谱条件分子生成：DiffMS 方法及其在结构解析中的应用
本研究由来自麻省理工学院（Massachusetts Institute of Technology）的 Montgomery Bohde、Mrunali Manjrekar、Runzhong Wang、Connor W. Coley 以及来自德州农工大学（Texas A&M University）的 Shuiwang Ji 共同完成。研究论文“diffms: diffusion generation of molecules conditioned on mass spectra”发表于 Proceedings of the 42nd International Conference on Machine Learning (PMLR 267, 2025)。这项工作提出了一种名为 DiffMS 的创新模型，旨在解决质谱分析中一个核心且极具挑战性的问题：如何根据给定的串联质谱（MS/MS）数据从头生成（de novo generation）对应的候选分子结构。
学术背景与研究目标
质谱（Mass Spectrometry, MS）是现代分析化学的基石技术，尤其在未知化合物（如代谢物、环境污染物、药物分子等）的结构鉴定中扮演着不可或缺的角色。串联质谱（MS/MS）技术能够提供丰富的碎片离子信息，理论上可用于推断原始分子的结构。然而，从质谱数据直接、自动地推导出唯一的分子结构是一个公认的难题。这源于计算和化学的双重挑战：从计算角度看，可能的分子片段组合空间呈指数级增长，属于NP-hard的组合优化问题；从化学角度看，不同的异构体（如图1所示的亮氨酸和异亮氨酸）可能产生几乎无法区分的质谱图，使得单一谱图无法唯一确定一个结构。此外，许多在实验中被发现的新型化合物（“代谢物暗物质”）并不存在于现有的化学数据库中，使得基于库检索的方法失效。
因此，发展“逆推”（inverse）模型，即从实验质谱直接生成可能的结构，而非仅仅从库中检索，成为了一个关键研究方向。此前的一些尝试包括：使用语言模型（如MS2Mol, Spec2Mol）将质谱数据编码后自回归地生成SMILES字符串；或使用多阶段方法，先预测分子指纹（如CSI:FingerID, MIST），再通过其他模型（如MSNovelist, NeuralDecipher）从指纹解码生成结构。然而，这些方法存在一些局限性：自回归模型难以严格融入化学式约束，且未充分考虑质谱和分子图的置换不变性；而两阶段方法可能受限于中间表示（如指纹、骨架）预测的准确性，且在整体性能上提升有限。
DiffMS 研究的核心目标正是为了克服这些局限性，开发一个更准确、高效的端到端（end-to-end）生成模型。其核心洞见在于：1）充分利用现有工具（如SIRIUS, MIST-CF）可以相对准确地从质谱数据中推断出未知分子的化学式（即重原子组成），将这一关键信息作为强约束条件可以极大缩小生成空间；2）利用近乎无限量的“指纹-结构”对数据进行大规模的预训练，以弥补“谱图-结构”对数据量（通常仅数万）的不足，从而训练出更强大的解码器。最终，该研究旨在建立一个能够在给定质谱和化学式的条件下，生成结构合理、准确度高的候选分子列表的先进框架。
详细研究方法与流程
DiffMS 的整体架构是一个编码器-解码器（encoder-decoder）模型，遵循预训练-微调（pretraining-finetuning）的范式。其工作流程主要包含三个核心部分：质谱编码器、图扩散解码器以及端到端微调。
1. 质谱编码器：从谱图到结构嵌入 编码器的任务是将输入的质谱（一组m/z和强度对）转换成一个蕴含结构信息的固定维度嵌入向量（condition y）。研究采用了来自MIST模型的“公式Transformer”架构。该编码器的关键创新在于融入了领域知识：首先，它使用外部工具（如SIRIUS）为质谱图中的每个碎片峰分配一个假设的化学式；然后，通过一个集合Transformer（Set Transformer）处理这些带有化学式信息的峰，该结构能够隐式地建模碎片离子之间的成对中性丢失（pairwise neutral losses），这是质谱解析中一个非常重要的化学过程。最终，提取对应于前体离子峰的嵌入作为整个分子的结构条件表示。为了提高编码器提取结构信息的能力，研究首先在目标数据集（如NPLib1, MassSpecGym）上对编码器进行预训练，但其训练目标是预测分子的摩根指纹（Morgan fingerprint），而非直接生成结构。这一预训练步骤旨在迫使编码器学习从质谱中提取更本质的、与结构相关的特征。
2. 图扩散解码器：从嵌入和化学式到分子图 解码器的核心任务是在给定化学式（确定原子类型和数量）和来自编码器的结构嵌入y的条件下，生成正确的分子图（即原子间的键连接）。DiffMS 采用了 离散图扩散（Discrete Graph Diffusion） 模型，这被认为是本研究的核心方法创新。 * 分子表示：分子被表示为一个图 M = (A, X, Y)。其中 X 是从已知化学式得到的原子类型（节点特征），是固定的；Y 是条件特征（即编码器输出）；A 是需要生成的邻接矩阵，其元素表示原子对之间的键类型（单键、双键、三键、芳香键或无键）。 * 扩散过程：扩散过程在邻接矩阵 A 上进行。前向过程（Forward Process）从真实的分子图（A^0）开始，在多个时间步 t 中逐步添加“噪声”。这里的“噪声”是指以一定的概率随机将边类型替换为其他类型（包括“无键”）。噪声调度采用余弦计划，并且最终会收敛到一个与训练数据中键类型分布相关的先验分布，而非均匀分布，这有助于训练。 * 去噪与生成：反向过程（Denoising Process）由一个神经网络 φ_θ 学习。该网络以带噪声的分子图 M^t = (A^t, X, Y) 为输入，目标是预测去噪后的原始邻接矩阵 A^0 的概率分布。网络架构基于图Transformer，分别对边特征 A^t、节点特征 X 和条件 Y 进行编码，然后通过多层图Transformer进行信息融合，最后通过一个MLP预测每条边的键类型概率。训练损失是预测概率与真实键类型之间的交叉熵损失。 * 采样：要生成新分子，首先从先验分布中采样一个完全随机的、噪声化的邻接矩阵 A^T，然后使用训练好的去噪网络 φ_θ 迭代地进行 T 步采样，逐步去除噪声，最终得到候选分子图 A^0。由于化学式 X 是固定的，该过程天然地保证了生成分子的重原子组成与给定化学式一致。 * 解码器预训练：这是DiffMS框架的另一大亮点。为了训练一个强大的解码器，研究利用了大量易得的“指纹-结构”对数据（从DSSTox、HMDB、COCONUT、MOSES等库中收集了约280万对）进行预训练。在预训练阶段，条件 Y 直接使用分子的摩根指纹，而不是质谱嵌入。这使得模型能够从海量数据中学习复杂的化学结构规律，而不受限于稀缺的“谱图-结构”数据。
3. 端到端微调与评估 在分别预训练好编码器和解码器后，将它们组合起来进行端到端微调。此时，编码器接收真实质谱并输出嵌入 y，解码器则基于 y 和真实化学式来生成分子，并通过扩散损失进行优化。在推理时，对于每个测试质谱，DiffMS 会采样100个候选分子，剔除无效或非连通的结构，然后根据生成频率进行排序，得到top-k的候选列表。 研究在两个公认的基准数据集上进行了评估：NPLib1 (Canopus训练集数据) 和更具挑战性的 MassSpecGym。评估指标包括：Top-k准确率（真实分子是否在前k个预测中）、Top-k最大Tanimoto相似度（结构相似性）、Top-k最小MCES（最大公共边子图，一种图编辑距离）。为了公平比较，研究还重新实现或复现了几个重要的基线方法，包括Spec2Mol、MIST+MSNovelist（使用MIST指纹替代CSI:FingerID）、MIST+NeuralDecipher以及文献中报告的MADGen和SMILES Transformer等结果。
主要研究结果
实验结果表明，DiffMS 在两个基准测试上均取得了最先进的性能。 在 NPLib1 数据集上，DiffMS 的 Top-1 准确率达到 8.34%，Top-10 准确率达到 15.44%，显著优于所有基线方法（如MIST+MSNovelist的5.40%/11.04%，MADGen的2.10%/2.39%）。同时，其MCES和Tanimoto相似度指标也表现优异或具有竞争力。 在更具挑战性的 MassSpecGym 数据集上（该数据集确保了测试集分子与训练集分子具有显著差异），DiffMS 的优势更加明显。其 Top-1 和 Top-10 准确率分别为 2.30% 和 4.25%，而次优的MADGen仅为1.31%和1.54%。其他多个基线方法在该数据集上的准确率甚至为0%。这表明 DiffMS 在应对“分布外”（out-of-distribution）的新型分子生成任务时，具有更强的鲁棒性。 此外，研究还报告了 DiffMS 生成分子的有效性（100%有效，因基于图表示），以及在“有意义匹配”（Tanimoto ≥ 0.4）和“接近匹配”（Tanimoto ≥ 0.675）指标上的显著优势。即使在未能精确匹配真实结构的情况下，DiffMS 也经常能生成结构非常相似的分子（如图4所示），这对于领域专家缩小化学空间搜索范围具有重要实用价值。
消融实验（Ablation Studies） 有力地证明了模型设计的有效性： 1. 编码器预训练：移除编码器的指纹预测预训练后，NPLib1上的Top-1准确率从8.34%降至4.36%，证明了预训练有助于编码器学习更有物理意义的谱图表示。 2. 解码器预训练规模：逐步增加用于解码器预训练的“指纹-结构”对数据量（从0到280万），模型性能持续提升（如图5所示）。Top-1准确率从无预训练的2.22%稳步上升到全量预训练的8.34%。这证明了利用海量化学数据预训练是提升性能的有效途径，且未来仍有扩展空间。 3. 公式来源：使用MIST-CF工具预测的化学式（而非真实化学式）作为条件时，DiffMS的性能仅略有下降，但仍然保持强劲。这表明 DiffMS 可以与现有的公式推断工具无缝集成，适用于真实化学式未知的场景。 4. 先验分布：比较了使用边际分布、空图（全无键）和全连接图（全单键）作为扩散起点先验的效果，结果显示与数据接近的边际分布和空图先验表现最佳，验证了设计选择。
研究结论与价值
本研究成功提出了 DiffMS，这是首个将化学式约束与离散图扩散模型相结合，用于质谱条件分子生成的端到端框架。通过创新的编码器-解码器架构和分阶段的预训练策略，DiffMS 显著提升了从质谱从头生成分子结构的准确性和可靠性。其科学价值在于： * 方法论创新：将离散图扩散模型引入质谱解析领域，提供了一种能自然处理组合约束（化学式）、置换不变性和条件不确定性（一对多映射）的生成范式。 * 性能突破：在标准基准测试上实现了 state-of-the-art 的性能，特别是在更具现实意义的挑战性数据集上表现突出。 * 实用性强：生成的候选分子即使不完全正确，也通常具有高结构相似性，能为化学家提供宝贵的线索。模型能够与现有公式推断工具协同工作，形成了完整的工作流。 该研究的应用前景广阔，有望加速质谱在代谢组学、环境分析、药物发现等领域中对未知化合物的鉴定流程，推动化学和生物学研究。
研究亮点
公式约束的扩散生成：首次将离散图扩散模型与确定的化学式约束相结合，用于质谱条件下的分子生成，确保了生成分子的基本组成正确，并优雅地处理了生成过程的组合性。
大规模预训练-微调框架：创造性地利用海量“指纹-结构”对数据预训练解码器，克服了“谱图-结构”对数据稀缺的瓶颈，并通过实验证明了性能随预训练数据规模的可扩展性。
领域知识融合的编码器：采用了能建模中性丢失的公式Transformer作为编码器，将质谱解析的化学直觉融入深度学习模型。
全面的评估与消融：在严谨的基准测试上对比了大量基线，并进行了深入的消融研究，清晰地验证了每个核心组件的贡献，为后续研究提供了坚实参考。
其他有价值内容
论文附录提供了丰富的额外信息，包括更多生成分子示例（成功与失败的案例）、不同Top-k下的详细性能曲线、不同先验分布的对比、以及使用不同公式推断工具（Buddy, MIST-CF）的准确率分析。这些内容进一步增强了研究的透明度和可复现性。代码已在GitHub上公开，促进了该领域的开放科学发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问