SpectraVerse：用于代谢物注释和机器学习的小分子串联质谱谱库的全面策展与整合

分享自：
SpectraVerse：用于代谢物注释和机器学习的小分子串联质谱谱库的全面策展与整合

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.5c06256
这篇文档题为《全面整合与协调SpectraVerse中的小分子串联质谱数据库》，发表于《Analytical Chemistry》期刊2026年98卷。研究由来自普林斯顿大学Lewis-Sigler整合基因组学研究所和Ludwig癌症研究所的Vishu Gupta, Hantao Qiang, Hsin-Hsiang Chung, Ehud Herbst以及通讯作者Michael A. Skinnider共同完成。该研究属于计算代谢组学与质谱信息学交叉领域，主要致力于解决公共串联质谱数据库分散、质量不均、标注不一致等问题，为机器学习模型开发提供高质量、标准化的训练数据资源。
学术背景与研究目的 基于质谱的代谢组学能够在生物样本中检测到数以千计的小分子信号。串联质谱（MS/MS）是将这些信号与对应小分子化学结构联系起来的关键技术。在非靶向代谢组学实验中，获取的MS/MS谱图通常通过与参考谱库进行比对来进行注释。然而，现有公共谱库存在显著局限：首先，它们分散在众多不同的数据库中，包括GNPS、MoNA等社区资源以及大量未整合的独立出版物数据；其次，这些谱库包含大量低分辨率、低质量的谱图，缺乏关键的元数据（如离子模式、加合物信息），或存在化学上不一致的注释；再者，商业谱库（如NIST、MassBank of North America、METLIN）虽然质量较高，但通常格式封闭，无法自由用于可复现的机器学习模型训练。
这种现状为希望利用公共数据进行机器学习模型开发的研究人员设置了巨大障碍。他们需要首先投入大量精力进行数据收集、预处理、质量过滤和标注协调，这要求研究者具备深厚的质谱专业知识。同时，不同研究团队使用不同的小型、异质数据集来训练和评估模型，导致模型间的公平比较变得困难，并可能低估了某些方法的性能潜力。为了解决这些问题，该研究团队旨在创建一个全面、经过深度整理和协调的公共小分子MS/MS谱库，并将其命名为SpectraVerse。其核心目标是：1）全面搜集所有可公开获取的参考MS/MS谱图；2）开发一个强大的预处理流程以协调元数据、标准化化学结构、并去除低质量或冗余谱图；3）识别并记录现有公共谱库中未被充分认识的潜在问题；4）构建一个迄今为止在化学空间覆盖度、加合物类型和离子模式方面最为全面的、可直接用于机器学习的MS/MS谱库资源。
详细研究流程 研究流程主要分为数据汇集、元数据协调与修复、化学结构标准化、低质量/不一致谱图剔除、近重复谱图去除、最终过滤与元数据标准化以及谱图后处理评估七个主要步骤。
第一步：数据汇集 研究团队从多个渠道系统性地搜集了所有可识别的公共参考MS/MS谱图。数据源包括主要数据库和社区资源（如GNPS、MoNA、MS-DIAL、HMDB、MSnLib），并特别补充了那些已发表但未存入上述数据库的独立谱库数据。这些数据通过下载出版物附件、从Metabolights等原始数据仓库重新处理、或访问GitHub、Zenodo等伴随网站的途径获得。初始汇集的总谱图数达到惊人的1,672,217张，为后续严格筛选奠定了基础。
第二步：元数据标准化与修复 此步骤旨在统一关键元数据字段的名称和值，并尝试修复缺失或错误的标注。首先，团队手动标准化了加合物、离子模式、化合物名称、SMILES、InChI、电荷等关键信息的字段和取值（例如，将“p”或“pos”统一为“positive”）。对于未关联化学结构的谱图，尝试通过GNPS API查询或手动方式补充SMILES字符串，尤其关注那些有多个谱图对应的化合物名称。随后，利用专门用于质谱数据处理的Python工具包matchms（版本0.27.0）进行自动化元数据协调与修复。该工具能统一字段名、推导缺失元数据、修复错误注释（例如，从化合物名称中提取嵌入的加合物和分子式信息，修复盐的SMILES表示，根据母离子质量和前体m/z校正加合物等）。在此阶段，还移除了强度为零的碎片离子、m/z超出10-1000范围的离子、强度均匀的伪MS/MS谱图、前体m/z大于1000的谱图以及仍无有效SMILES的谱图。碎片离子强度也被归一化至基峰。
第三步：化学结构标准化 为确保化学结构表征的一致性，研究团队设计了一个多阶段标准化流程。使用RDKit化学信息学工具加载SMILES字符串，进行“净化”以移除氢、金属和 disconnected fragments，并去除立体化学信息。使用TautomerEnumerator类将互变异构体标准化为其规范形式。此外，在可能的情况下对分子进行电荷中和。研究发现，常规方法有时会错误地中和以电荷分离形式书写的官能团（如亚砜和磷酰基），因此实施了额外检查以确保正确性。对于两性离子化合物，电荷中和可能改变整体电荷，因此创建了谱图的两个副本（一个关联带电形式，一个关联不带电形式），以在后续matchms处理中避免错误剔除。此阶段还移除了空谱图、非MS2级谱图、以及来自罕见加合物或涉及中性丢失的加合物的谱图。
第四步：去除低质量或不一致标注的谱图 此步骤旨在识别并移除推断为低质量/分辨率，或其化学结构与谱图本身不一致的谱图。具体包括：移除所有碎片质量仅保留两位或更少小数位的低分辨率谱图；移除所有碎片离子m/z均大于前体m/z的谱图；移除仅含一个碎片离子且该离子m/z在±1.6范围内接近前体m/z的谱图。随后，进行第二轮matchms处理，应用更严格的过滤器，要求谱图具有有效的前体m/z和离子模式，并且要求结构标注具有内在一致性：母离子质量与SMILES计算出的单同位素质量偏差需在0.1 Da以内；加合物的理论m/z需与前体m/z在0.1 Da内匹配；加合物必须与标注的离子模式相符。通过手动审查数千张被剔除的谱图，团队确认了这些过滤标准的合理性，并据此优化了预处理策略。
第五步：去除近重复谱图 公共谱库中存在大量高度相似的“近重复”谱图，这可能是对相同数据进行略微不同的预处理所致。为识别这些谱图，研究团队首先基于InChIKey前14个字符和离子模式匹配候选谱图对。然后计算每对候选谱图之间的余弦相似度。余弦相似度超过0.99的谱图被标记为近重复。从每组近重复谱图中，仅保留一个代表性条目，优先选择碎片离子数量更多的谱图。
第六步：最终过滤与元数据标准化 进行最终质量检查：移除理论前体m/z与实验值偏差超过10 ppm的谱图（以确保高分辨率数据）；仅保留九种最常见的加合物类型（如[M+H]⁺， [M-H]⁻等）。移除相对强度低于0.1%的碎片离子，并仅保留每张谱图中强度最高的前4096个离子。移除带有自由基电子SMILES的少量谱图。最后，手动将仪器类型映射为三类：QTOF、Orbitrap、离子阱（或未指定），并移除了来自低分辨率三重四极杆（QQQ）仪器的谱图。碰撞能量信息也被标准化，以适应斜坡或阶梯碰撞能量设置，每个谱图最多关联三个碰撞能量字段（分别以eV和标准化碰撞能量NCE表示）。
第七步：谱图后处理评估 研究团队评估了峰心检测、电子降噪和去除低强度碎片离子等后处理步骤的效果。通过计算谱图间的余弦相似度，并评估其区分相同化合物与不同化合物的能力（以AUROC衡量），发现峰心检测和降噪均会轻微但一致地降低AUROC，因此决定不将这些步骤纳入预处理流程。去除低强度离子同样略微降低AUROC，但当保留前4096个高强度离子时，这种影响已基本饱和，因此最终采用了这个相对宽松的过滤器。
主要研究结果 经过上述严格而全面的预处理流程，最终构建的资源被命名为SpectraVerse。它共包含488,630张MS/MS谱图，对应于44,237个独特的小分子。所有数据以MGF格式提供，并永久存档于Zenodo平台。这是迄今为止规模最大、最全面的公共机器学习就绪MS/MS谱库。
研究团队将SpectraVerse与目前最常用于训练和评估机器学习模型的两个公共谱库——MassSpecGym和NPLIB1——进行了详细比较。结果显示：1）规模优势：SpectraVerse的谱图数量是MassSpecGym（240,127张）的两倍多，是NPLIB1（约10,709张合并文件，处理后谱图数更少）的40倍以上。即使在移除MassSpecGym中存在的77,774张近重复谱图后，SpectraVerse的规模优势仍然显著。2）技术多样性：SpectraVerse涵盖了代谢组学实验中常见的大范围加合物类型，包括正、负离子模式下的多种加合物，而MassSpecGym仅包含质子化和钠加合的正离子模式谱图，NPLIB1的覆盖范围也有限。这种多样性对于避免将非常见加合物的信号误判为“未知代谢物”至关重要。3）谱图特征更接近真实实验：与NPLIB1相比，SpectraVerse和MassSpecGym的谱图在碎片离子数量、m/z和强度分布上更接近常规代谢组学实验获得的单个谱图。NPLIB1中含有大量碎片离子，尤其是低强度离子，这可能是其采用了合并不同碰撞能量扫描谱图的方法所致，而这种“合并谱图”与单次实验获取的谱图存在差异。4）化学空间覆盖更广：对三个数据集包含的化学结构进行UMAP降维可视化显示，SpectraVerse在化学空间上的覆盖范围明显更广。5）实际注释性能提升：为验证其实用价值，研究团队使用一个包含2910万张MS/MS谱图（来自4510项已发表的人血液代谢组学研究）的大型实验数据集，分别用三个谱库进行谱库搜索。结果表明，在任何余弦相似度阈值下，使用SpectraVerse进行搜索都能注释最多数量的实验谱图，证明了其更优越的实际覆盖能力。
在构建过程中，研究团队还识别并记录了一系列此前未被充分认识的公共谱库潜在问题，包括：含有所有碎片离子强度相同的伪谱图、包含零强度碎片的谱图、MSn级别高于MS2的谱图、结构信息不明确的谱图（如所有碎片m/z均大于前体m/z）、低分辨率谱图、大量近重复谱图，以及化学结构与谱图元数据（如加合物、电荷）不一致的问题。成功解决这些问题（如通过定制化结构标准化流程处理两性离子和含盐结构）是确保SpectraVerse高质量的关键。
结论与研究价值 SpectraVerse的研究成功应对了公共MS/MS参考谱库分散、质量参差、元数据混乱所带来的核心挑战。它不仅大幅降低了研究者进入该领域的门槛，使他们无需投入大量精力进行繁琐的数据预处理即可获得高质量的机器学习训练数据，而且为整个计算质谱领域提供了一个标准化、可复现的基础设施。
该研究的科学价值在于：1）数据资源创新：创建了目前最大、最全面、技术最多样、且经过严格质量控制的公共小分子MS/MS谱库，为机器学习模型提供了前所未有的数据基础。2）方法论贡献：详细描述并开源了一套系统、可复现的谱库预处理与协调流程，包括对matchms工具的特定配置和修改，以及对化学结构标准化特殊案例的处理方案，这些经验对未来类似工作具有重要指导意义。3）问题揭示：明确指出了现有公共资源中普遍存在但此前未被系统记录的质量问题（如近重复谱图、不一致标注等），提示了以往基于不同子集训练的模型在比较时可能存在的混淆因素。其应用价值则直接体现在提升代谢物注释的覆盖率和可靠性，并有望通过更优的训练数据推动下一代MS/MS谱图计算解析与预测模型的发展。研究团队承诺将维护并扩展SpectraVerse，以纳入未来不断增长的公共参考MS/MS谱图，并采用语义化版本管理和永久存档，确保资源的持续性和可复现性。
研究亮点 本研究的亮点突出体现在以下几个方面：1）规模与质量的突破性结合：在实施史上最严格过滤标准的同时，仍整合出规模远超现有任何可比公共资源的数据集。2）流程的系统性与严谨性：从数据搜集、元数据修复、结构标准化到质量过滤，每一步都基于大量手动审查和量化评估，形成了高度系统化、可重复的流水线。3）对技术细节的深度洞察与解决：特别体现在对化学结构标准化与谱图元数据协调之间复杂交互关系的处理上，如对两性离子、含盐结构等特殊案例的精细化解决方案。4）前瞻性与生态建设意识：不仅提供一个静态数据集，更通过版本控制、永久存档和开源代码，旨在构建一个可持续更新和维护的社区资源，推动领域内研究范式的标准化。5）实用性验证充分：通过大规模真实实验数据的谱库搜索测试，实证了SpectraVerse在提升代谢物注释能力方面的直接价值，使其超越了纯粹的“数据整理”工作，成为一项切实推动科学发现的工具性研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问