本文研究由美国印第安纳大学伯明顿分校卢迪信息学、计算与工程学院(Luddy School of Informatics, Computing, and Engineering, Indiana University Bloomington)的 Yuhui Hong, Sujun Li, Yuzhen Ye 和 Haixu Tang 共同完成,于2025年发表在期刊 Nature Communications 上,文章标题为 “FIDDLE: a deep learning method for chemical formulas prediction from tandem mass spectra”,DOI 为 10.1038/s41467-025-66060-9。
本研究属于质谱分析、计算化学与人工智能交叉领域,旨在解决小分子分析中化学式鉴定的关键难题。串联质谱(Tandem Mass Spectrometry, MS/MS)是鉴定未知小分子及其结构特征的核心分析工具。传统流程依赖于将实验谱图与参考谱库进行比对。然而,受限于时间、人力和资源,大量化学信号未被表征,被称为“暗物质”,这些分子可能具有独特的生物活性,对于理解生物机制至关重要。当前计算化学式鉴定的方法主要分为自上而下(top-down)和自下而上(bottom-up)两种代表性策略,前者以 SIRIUS 为代表,通过分析同位素模式生成候选式并计算碎裂树进行评分;后者以 BUDDY 为代表,专注于利用 MS/MS 数据可解释的已知化学式库来筛选和排名候选式。但现有方法在准确性、速度和可扩展性方面存在局限,尤其是对于较大分子(如分子量 > 800 Da),候选化学式数量呈指数级增长,导致计算复杂度剧增、准确性显著下降。此外,这些方法未能充分利用 MS/MS 谱图中的全部信息,例如 SIRIUS 仅考虑有限数量的谱峰,BUDDY 则受限于其参考库的覆盖范围,可能遗漏完全未知的化学式。因此,本研究的目标是开发一种基于深度学习的新方法,以克服现有计算方法的局限性,实现更快速、更准确、更具扩展性的化学式鉴定,特别是在高通量工作流和大分子分析中。
该研究的工作流程主要包括三个核心步骤,并涉及大规模数据的训练与评估。第一步是使用深度学习模型直接从 MS/MS 谱图预测化学式。研究人员首先将 MS/MS 谱图进行预处理并量化(binning)为固定分辨率的一维向量作为输入。化学式则被编码为原子计数向量。核心模型架构采用堆叠的大核空洞卷积(dilated convolutions with large kernels),以捕获宽质量范围内谱峰之间的关系,有效扩大模型的感受野,使其能同时分析局部和全局谱图模式。模型不仅预测化学式,还通过多任务学习执行三个辅助任务:原子总数预测、分子量预测和氢碳比预测,以增强模型的泛化能力和作为正则化手段。此外,研究引入了对比学习损失(contrastive loss),旨在消除实验条件(如碰撞能量、前体离子类型)的影响,确保来自同一分子的谱图特征在表示空间中相近,而不同分子的谱图特征相远。第二步是候选化学式精炼。由于深度学习模型不能保证预测公式的绝对正确或符合化学规则,研究开发了一种广度优先搜索的精炼算法。该算法以模型预测的初始化学式为起点,对原子计数进行最小程度的调整,以确保候选式符合化学经验规则(Senior Rules),并且其计算质量与实验测得的前体离子质量在指定容忍度内匹配(Q-TOF 仪器为 10 ppm,Orbitrap 仪器为 5 ppm)。此步骤最终为每个 MS/MS 谱图生成一组(默认 k=5)候选化学式。该算法设计灵活,也可以集成 SIRIUS 或 BUDDY 等方法的预测结果作为初始输入。第三步是置信度评分与排序。研究训练了一个辅助的深度学习模型,利用第一步中学到的条件独立的 MS/MS 特征向量与候选化学式向量,来估计每个候选式正确的置信度分数。最后,所有候选化学式根据其预测的置信度分数进行排序。为训练和评估 FIDDLE,研究整合了来自多个公共数据库和内部数据集的超过 38,000 个分子和超过 1 百万张 MS/MS 谱图,数据来自不同类型的四级杆飞行时间质谱仪和 Orbitrap 质谱仪。数据集经过了严格的过滤和预处理,包括谱峰数量、分子质量、原子类型、质量偏差等筛选,并模拟了前体离子 m/z 值以增强模型在真实实验条件下的泛化能力。训练集构建时采用了数据增强策略,例如为 Q-TOF 数据添加高斯噪声以提升模型鲁棒性。研究将仅存在于 NIST23 数据库且未出现在其他训练库中的分子谱图作为独立的测试集,确保了公平的比较。
研究取得了显著的主要结果。在性能评估上,FIDDLE 在测试集上的 Top-1 和 Top-5 准确率分别达到 88.3% 和 93.6%,显著优于 SIRIUS 和 BUDDY。特别是在分子量大于 800 Da 的较大分子上,FIDDLE 表现出强大的鲁棒性,而 SIRIUS 和 BUDDY 的准确率则大幅下降。在速度方面,FIDDLE 将化学式鉴定速度相比 BUDDY 提升了超过 10 倍,相比 SIRIUS 提升了超过 100 倍。在外部基准代谢组学数据集上的评估进一步验证了其泛化能力:在 CASMI 和 EMBL-MCF 2.0 数据集上,FIDDLE 在正、负离子模式下的 Top-5 准确率平均达到 80.0% 和 73.8%,当与 SIRIUS 和 BUDDY 的结果结合后,准确率可进一步提升至 80.0% 和 73.8%。噪声鲁棒性测试表明,即使在高斯噪声水平显著增加的情况下,FIDDLE 在 Q-TOF 和 Orbitrap 数据上仍能保持 90% 以上的 Top-5 准确率,远优于对比方法。消融实验揭示了各个组件的贡献:数据增强和对比学习损失均有效提升了初始预测的准确性;后处理步骤(精炼算法和置信度评分)能够将大部分与正确式相差不超过 3 个重原子的候选式修正或有效排名,显著缓解了因氢原子质量小而导致计数错误的难题。此外,研究深入分析了数据特性对模型性能的影响,发现模型性能与分子极性、质量范围和化学超类有关。例如,极性分子、小分子通常更容易准确鉴定,而对于训练数据较少的化学类别(如有机硫化合物、有机聚合物),性能会有所下降。不同仪器类型(Q-TOF 与 Orbitrap)的比较显示,使用高分辨率 Orbitrap 数据训练的模型在两种数据类型上都表现更优,体现了高分辨率数据学习到的特征更具鲁棒性。
本研究的结论是,FIDDLE 作为一种全新的基于深度学习的化学式鉴定方法,通过结合深度表示学习、基于规则的候选式精炼和基于学习的置信度评估,实现了对串联质谱数据更高效、更准确的分析。它不仅大幅加速了鉴定流程,还克服了传统方法在处理较大分子和未知化学式时的瓶颈,为高通量小分子分析工作流提供了强大的工具。该研究的科学价值在于,它成功地将深度学习技术深度应用于质谱数据分析这一传统上依赖物理化学规则和启发式算法的领域,展示了数据驱动方法在复杂科学问题上的潜力。应用价值则体现在推动代谢组学、环境分析、天然产物和药物发现等领域中未知化合物鉴定的效率和范围。重要的是,FIDDLE 的架构和工作流为后续更复杂的分子结构解析奠定了坚实基础,未来可扩展用于从 MS/MS 谱图中直接推断共价键连接和分子结构。
本研究的亮点在于:第一,重要发现是深度学习模型能够直接从原始 MS/MS 谱图中学习到高度 discriminative 的特征,实现接近甚至超过基于严密化学规则计算的方法的准确率,尤其是在传统方法表现不佳的领域(如大分子、高噪声数据)。第二,方法新颖性体现在将大核空洞卷积用于 MS/MS 谱图编码以捕获长程依赖关系,以及设计了三步式的工作流(预测-精炼-排序),巧妙地结合了深度学习的数据驱动能力和传统化学规则的约束,既利用了深度学习的强大表示能力,又通过精炼步骤确保了结果的化学合理性和质量匹配。第三,研究对象的特殊性在于使用了迄今为止最大规模、最多样化的 MS/MS 谱图数据集进行训练和评估,涵盖了多种仪器平台和实验条件,确保了模型的广泛适用性和评估的严谨性。第四,研究还深入探讨了模型性能与分子特性、数据质量之间的关系,为理解深度学习模型在该领域的优势和局限提供了宝贵见解。最后,研究开源了所有代码和预训练模型,这极大地促进了该方法的社区采用和后续研究。