分享自:

MIST-CF:基于串联质谱的化学式推断

期刊:Journal of Chemical Information and ModelingDOI:10.1021/acs.jcim.3c01082

关于MIST-CF:基于串联质谱的化学式推断方法的学术研究报告

本研究由Samuel Goldman、Jiayi Xin、Joules Provenzano和Connor W. Coley*(通讯作者,麻省理工学院化学工程系和电气工程与计算机科学系)共同完成,并于2024年发表在*Journal of Chemical Information and Modeling*期刊(2024, 64, 2421−2431)上。

一、 研究背景 该研究属于计算化学与代谢组学交叉领域,具体聚焦于串联质谱(MS/MS)数据处理中的化学式注释问题。在代谢组学研究中,串联质谱是解析复杂生物样本中未知小分子结构的关键技术。它通过测量母离子(MS1)的质量及其裂解产生的碎片离子(MS2)谱图来提供结构信息。然而,由于化学空间的浩瀚,绝大多数观测到的MS/MS谱图在现有数据库中无法找到匹配,因此需要依赖计算模型从头(de novo)推断其化学式。化学式的准确推断是后续结构鉴定的关键第一步,能够将候选分子从所有可能质量相近的化合物,大幅缩小至具有相同元素组成的异构体集合。

当前,该领域的金标准方法是SIRIUS,它通过构建和评分碎片树(fragmentation tree)来评估候选化学式的可能性。尽管SIRIUS取得了成功,但该方法存在一些局限性:1)碎片树的构建和优化计算密集、耗时,尤其对于大质量分子(>800 Da)可能导致程序超时;2)其评分过程依赖于专家手动设定的参数;3)它是一个商业软件,限制了其可及性和可修改性;4)SIRIUS在结构注释步骤中会利用数据库重新排序候选化学式,这使其在某种程度上变成了数据库依赖的方法,而非纯粹的头推断。

因此,本研究团队旨在开发一种新的、数据驱动的、不依赖于碎片树构建的深度学习方法,以更高效、更准确地从MS/MS谱图中推断前体离子的化学式。他们扩展了先前开发的“谱图转换器”(spectrum transformer)方法,提出了MIST-CF(Metabolite Inference with Spectrum Transformers for Chemical Formula Prediction),一个基于能量模型(Energy-Based Model, EBM)的框架,用于学习对给定未注释MS/MS谱图的候选化学式和加合物分配进行排序。

二、 研究详细流程 本研究的工作流程主要包括数据准备、模型架构设计、训练与评估、以及基准测试四个核心部分。

1. 数据准备与处理: 研究使用了两个主要数据集进行模型训练和评估。 * NPLib1: 一个公开的自然产物数据集,从全球天然产物社会分子网络(GNPS)数据库中提取。包含10,709个正离子模式MS/MS谱图,对应8,553个独特结构和5,433个独特化学式。为确保评估的公正性,研究采用了基于化学式的数据分割:随机选取20%的化学式(及其所有相关谱图)作为测试集,10%作为验证集,其余70%用于训练。 * NIST20: 一个商业质谱库。研究从中提取了所有高分辨率轨道阱(Orbitrap)正离子模式谱图,并排除了与NPLib1测试集重叠的化学式,以避免数据泄露。最终,合并后的训练集包含45,838个独特谱图,对应30,950个独特二维分子结构和15,315个独特化学式。使用NIST20的目的是为了评估加入高质量商业数据对模型性能的提升。

对于每个MS/MS谱图,核心处理步骤是子式标注(Subformula Annotation)。这是MIST-CF方法的一个关键创新点,旨在替代SIRIUS中复杂的碎片树构建。具体流程如下: * 候选化学式生成: 给定一个观测到的MS1质量(m/z),在一个设定的质量误差容限(如10 ppm)内,使用高效的动态规划算法(集成自SIRIUS软件)穷举生成所有可能的化学式与常见正离子加合物(如[M+H]+, [M+Na]+等)的组合。 * 子式枚举与匹配: 对于每一个候选的母离子化学式,算法会枚举其所有可能的“子式”(即母离子化学式的子集)。然后,将每个子式的理论质量与经过加合物质量调整后的MS2谱峰质量进行比较。在考虑了仪器类型特定的质量误差容限(离子阱:15 ppm, Q-TOF:10 ppm, Orbitrap/FTICR:5 ppm)后,为每个MS2峰分配一个质量最接近的、合理的子式。无法分配子式的峰将被排除。这个过程完全通过一个自主开发的、开源的NumPy模块实现,摆脱了对SIRIUS子式标注功能的依赖。

2. 模型架构设计(MIST-CF): MIST-CF的核心是一个基于能量模型的公式转换器神经网络。 * 能量模型框架: 模型的目标是学习一个能量函数 g_θ,该函数为给定的谱图S、候选化学式F和加合物A分配一个标量能量值。能量越低,表示该(F, A)对与谱图S匹配的可能性越高。模型通过对比学习进行训练:对于每个真实的(F_true, A_true)对,模型学习降低其能量,同时提高从同一MS1质量生成的“诱饵”(decoy)化学式的能量。 * FastFilter模块: 为了解决候选化学式空间过大(部分谱图可达数百万)导致的计算负担,研究团队训练了一个轻量级的前馈神经网络FastFilter。该模块仅基于化学式本身(无需谱图信息),从一个大型生物相关分子数据库中学习,用于快速预筛选和排名候选化学式。实验表明,FastFilter能在前256个候选者中恢复99%的真实化学式,从而极大地提高了后续MIST-CF评分的效率。 * 公式转换器(Formula Transformer): 这是MIST-CF的评分主体。其输入是经过子式标注后的谱图表示,即一组(子式,强度)对,最多保留前20个高强度的峰。处理流程如下: * 编码: 将每个子式(以及作为特殊输入的母离子化学式本身)的整数元素计数,通过一个正弦嵌入(sinusoidal embedding)层转换为固定维度的向量。 * 特征拼接: 将每个峰的编码与其附加特征拼接,包括:该子式与母离子化学式的元素差异编码、峰强度、观测质量误差、加合物类型(独热编码)、仪器类型(独热编码)、以及一个标识是否为母离子的布尔标志。 * 转换器处理: 将上述拼接后的特征序列输入一个改进的多头注意力转换器(Transformer)网络。该网络允许不同峰之间的信息交互。 * 池化与评分: 网络最终从代表母离子化学式的特殊位置(“CLS”令牌)的输出进行池化,并通过一个多层感知机(MLP)映射为一个标量能量值。

3. 模型训练与评估: * 训练: 使用Adam优化器,在单个GPU上对模型进行训练。损失函数采用基于能量模型的softmax损失,旨在区分真实化学式和采样得到的“诱饵”化学式。 * 基线模型: 为了评估MIST-CF架构的优势,研究设置了三个基线神经网络模型进行比较: * FFN(前馈网络): 受MetFID启发,将分箱(binned)表示的谱图向量与编码后的化学式等特征拼接,输入MLP。 * MS1 Only: FFN的变体,将谱图输入置零,仅使用化学式和上下文信息。 * Transformer(基线): 使用多尺度正弦嵌入直接编码质荷比(m/z)值,而非子式。 * 评估指标: 主要评估指标是Top-k准确率,即正确化学式(或化学式+加合物组合)出现在模型排序前k位的谱图比例。

4. 基准测试: 研究将MIST-CF与当前最先进的SIRIUS(v5.6.3)在相同的NPLib1测试集上进行了头对头比较。同时,还在一个独立的、前瞻性的CASMI2022挑战赛数据集(正离子模式)上评估了MIST-CF的泛化性能,以模拟真实应用场景。

三、 主要研究结果 1. FastFilter高效缩小候选空间: 研究证实,对于高质量分子,候选化学式数量可能超过5000个。FastFilter模型能够以99%的召回率将候选列表缩减至前256个,为后续MIST-CF的快速评分奠定了基础。

2. MIST-CF架构显著优于其他神经网络基线: 在NPLib1测试集上,当训练数据包含NIST20时,MIST-CF取得了76.9%的Top-1准确率。这显著超过了FFN(65.2%)、基线Transformer(62.6%)和MS1 Only(62.3%)模型,绝对提升超过10%。这表明,明确地利用子式标注信息(即化学式级别的碎片表示)是模型成功的关键,而非单纯的神经网络架构差异。

3. MS2碎片信息至关重要: 通过控制输入MIST-CF的MS2峰数量(np)进行消融实验,发现模型性能随着可用碎片峰数量的增加而快速提升。当np=0(即仅用MS1信息)时,准确率仅为62.3%;当np增加到20时,准确率达到75.6%;继续增加到50时,准确率有边际提升至77.4%。这证明模型确实从MS2碎片信息中学习,而非仅仅记忆数据库中的化学式分布。

4. MIST-CF性能超越SIRIUS公式模块: 在NPLib1测试集上,在相同的候选化学式生成条件下(使用“rdbe”过滤器),MIST-CF的Top-1准确率(针对化学式+加合物总组成)达到80%,而SIRIUS(在300秒超时设置下)的准确率为48%。MIST-CF为36%的谱图做出了正确预测而SIRIUS未能做到,反之仅为3%。此外,MIST-CF对所有测试谱图都给出了预测,而SIRIUS因超时未能对10.77%的谱图(平均质量更高)给出结果。在计算时间上,对于质量低于700 Da的化合物,MIST-CF的壁时间约为SIRIUS的三分之一。

5. 在CASMI2022挑战赛中表现优异: 在完全自动化的设置下(未使用MS1同位素信息,也未进行人工结果后处理),MIST-CF在CASMI2022正离子模式数据集的304个谱图上,取得了86.2%的化学式+加合物总组成Top-1准确率。这与使用了离子身份分子网络和人工审核的冠军提交结果(86.8%)几乎相当,并且显著优于使用默认参数的SIRIUS(CSI:FingerID重排后为67.8%)。这强有力地证明了MIST-CF在前瞻性、自动化化学式注释任务中的竞争力。

四、 研究结论与意义 本研究成功开发并验证了MIST-CF,一个基于能量模型和公式转换器架构的、数据驱动的MS/MS化学式注释新方法。其核心贡献在于完全摒弃了传统依赖的、计算昂贵的碎片树构建过程,转而通过一个简单高效的子式标注步骤和深度学习模型直接从数据中学习如何对候选化学式进行排序。

科学价值: 1. 方法论创新: 证明了基于深度学习的能量模型框架在化学式推断任务上的有效性和优越性。将复杂的质谱解析问题转化为一个可学习的排序任务,为计算代谢组学提供了新的范式。 2. 性能提升: MIST-CF在多个数据集上展示了比现有最佳方法(SIRIUS)更高的准确率和更快的速度,特别是在处理大分子和质量较高的谱图时更具鲁棒性。 3. 可解释性与数据利用: 模型通过学习子式与母离子化学式之间的关系进行推理,其决策过程比黑箱模型更具可解释性。实验也证实了模型确实利用了MS2碎片信息。

应用价值: 1. 开源与易用: MIST-CF以MIT许可证开源发布,易于集成到现有的代谢物鉴定流程中。它不依赖商业软件,降低了使用门槛。 2. 高效自动化: 方法完全自动化,无需人工参数调优或后处理,适合高通量数据分析。 3. 推动领域发展: 该工作是实现全流程神经网络驱动代谢物注释管线的重要一步。作者指出,未来可将MIST-CF与MS1同位素评分、前向谱图预测模型(如MIST)等结合,构建更强大的集成系统。

五、 研究亮点 1. 新颖的模型框架: 首次将能量模型(EBM)与化学式转换器架构相结合,用于解决MS/MS化学式注释问题。 2. 摆脱碎片树依赖: 这是该研究最核心的贡献。通过简单的子式标注替代复杂的碎片树优化,实现了更快的计算速度和可复现性,同时保持了高精度。 3. 高效的候选过滤(FastFilter): 引入一个轻量级神经网络对海量候选化学式进行快速预筛选,解决了计算可扩展性问题。 4. 全面的基准测试: 不仅在公开数据集上与多种神经网络基线进行了严格对比,还与当前业界标准SIRIUS进行了头对头比较,并在独立的CASMI2022挑战赛数据上验证了其前瞻性性能,证据链完整。 5. 开源与可重复性: 提供了完整的代码、训练好的模型和明确的数据分割,确保了研究的可重复性,并为后续研究奠定了基础。

六、 其他有价值内容 研究还探讨了模型的局限性,例如目前仅针对正离子模式数据训练,未整合MS1同位素信息,MS2子式标注时假设碎片与母离子加合物相同等。这些均为未来的改进指明了方向,例如扩展到负离子模式、集成同位素模式评分、探索更灵活的子式加合物分配等。此外,研究提出可将MIST-CF与近期发表的Buddy等方法结合,通过重新排序Buddy生成的候选公式来进一步提升性能。这些讨论体现了作者对研究领域发展方向的清晰认识。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com