分享自:

SpectraVerse:小分子MS/MS谱图的全面整理与标准化

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.5c06256

关于SpectraVerse:一个全面、经过深度处理与整合的小分子串联质谱谱库的学术研究报告

一、 作者、机构与发表信息

本研究的主要作者为Vishu Gupta, Hantao Qiang, Hsin-Hsiang Chung, Ehud Herbst 和 Michael A. Skinnider*。通讯作者是Michael A. Skinnider。所有作者均来自美国普林斯顿大学的Lewis-Sigler综合基因组学研究所和路德维希癌症研究所,其中Hantao Qiang也隶属于普林斯顿大学化学系。该研究成果以题为“Comprehensive curation and harmonization of small-molecule MS/MS libraries in SpectraVerse”的论文形式,于2026年1月26日在线发表于分析化学领域的权威期刊《Analytical Chemistry》(2026年第98卷第3934-3943页)。该论文遵循CC-BY 4.0开放获取许可。

二、 学术背景与研究目的

本研究属于代谢组学与计算质谱学的交叉领域。基于质谱的代谢组学能够在生物样本中检测到数千个小分子信号,而串联质谱(MS/MS)是将这些信号与对应小分子化学结构关联起来的关键技术。在非靶向代谢组学实验中,通常通过与参考MS/MS谱库进行比对来对获得的MS/MS谱图进行注释。然而,现有的公共参考谱库存在几个关键问题:首先,它们分散在多个不同的数据库中,难以统一获取;其次,许多谱图质量低下、分辨率不足、缺乏关键的元数据,或者具有化学上不一致的注释。这些问题使得研究人员在利用这些公共谱库开发用于代谢物注释的机器学习模型时,面临巨大的预处理负担和专业壁垒。

具体而言,尽管商业谱库(如NIST、mzVault或METLIN)通常质量较高,但其专有格式和不可再分发的特性限制了其在开放、可复现的机器学习模型开发中的应用。因此,研究社区越来越多地转向使用公共谱库(如GNPS或MoNA)。然而,这些公共谱库缺乏统一的质量控制,导致研究人员必须自行制定复杂的预处理标准,这需要深厚的质谱学专业知识。此外,不同机器学习模型通常在不同的、规模有限的数据集上进行训练和评估,这种“数据差异”严重阻碍了模型间的公平比较,并可能低估了某些方法的潜力。

基于以上背景,本研究旨在构建一个名为SpectraVerse的综合性、经过深度处理和整合的公共小分子MS/MS谱库资源。其核心目标是为代谢物注释和机器学习模型开发提供一个高质量、大规模、标准化且机器可读的基础数据集,从而降低该领域的入门门槛,促进计算质谱学方法的公平比较与创新发展。

三、 详细研究流程

本研究的工作流程是一个系统性的数据收集、预处理、质量控制和整合的过程,主要包含以下关键步骤:

1. 数据源收集与汇编: 研究团队首先进行了全面的数据挖掘,旨在识别所有可公开获取的小分子参考MS/MS谱图。数据来源分为两大类:(1)主要数据库和社区资源,包括GNPS、MoNA、MS-DIAL、HMDB和MSnLib;(2)已发表文献中报道但未存入上述主流数据库的谱库。后者通过从论文的支持信息、原始数据存储库(如MetaboLights)、GitHub代码库、Zenodo存档或作者个人网站获取。总计,初始收集了来自44个不同来源的1,672,217张MS/MS谱图,并以MGF格式进行后续处理。

2. 元数据标准化与修复: 这是确保数据一致性和可用的关键步骤。首先,研究人员对关键的元数据字段(如加合物、电离模式、化合物名称、SMILES、InChIKey、电荷、MS级别等)的名称和值进行了手动标准化。例如,将所有表示加合物的信息统一到adduct字段,将电离模式统一为“positive”或“negative”。对于没有关联化学结构标识符的谱图,团队尝试通过GNPS API自动检索,并对剩余的大量谱图(涉及2090个独特化合物)进行了手动化学结构(SMILES)注释,总计手动注释了19,574张谱图。无效SMILES字符串也尝试通过移除多余字符等方式进行修复。此外,移除了强度为零的碎片离子以及m/z范围在10-1000之外的离子。 随后,研究团队采用了开源工具matchMS(版本0.27.0)对元数据进行自动化谐调和修复。这一步骤包括:统一元数据字段名、从错误字段中推导元数据、修复不一致的注释(如从化合物名称中提取嵌入的加合物信息、修复盐的SMILES表示、基于母离子质量校正加合物等),并将碎片离子强度归一化至基峰。在此阶段,还移除了强度均匀的谱图(伪MS/MS谱)、母离子m/z大于1000的谱图以及仍无有效SMILES的谱图。

3. 化学结构标准化: 为了解决化学结构表示不一致的问题,研究团队设计了一个多阶段预处理流程。使用RDKit工具包,对SMILES字符串进行“净化”(sanitization),移除氢原子、金属和 disconnected fragments,并消除立体化学信息。使用TautomerEnumerator类将互变异构体标准化为其规范形式。同时,对电荷进行中和。在此过程中,研究团队发现了一个关键问题:标准的中和流程可能会错误地处理某些以电荷分离形式书写的官能团(如亚砜和磷酰基),因此他们实施了额外的检查来确保正确中和。对于两性离子化合物,中和一个电荷基团可能导致分子整体仍带电荷,这可能与谱图的加合物注释(如[M+H]+)冲突而被matchMS错误过滤。为解决此问题,研究团队创建了谱图的两个副本(分别关联带电和未带电形式),并一同进入下一处理阶段。此阶段还移除了空谱图、非MS2谱图以及来自稀有加合物或涉及中性丢失的加合物的谱图。

4. 移除低质量或注释不一致的谱图: 此步骤旨在基于谱图本身和其注释的质量进行过滤。首先,移除了所有碎片质量仅保留两位或更少小数位的低分辨率谱图。其次,移除了所有碎片离子m/z值均大于母离子m/z的谱图,以及仅含一个碎片离子且该离子m/z在母离子m/z ±1.6范围内的无信息谱图。 然后,对谱图进行第二轮matchMS处理,应用更严格的过滤器以移除注释不一致的谱图。过滤器包括:要求谱图具有有效的母离子m/z和电离模式;要求母离子质量与SMILES计算出的单同位素质量在0.1 Da内匹配;要求注释有效;要求加合物的理论m/z与报告的母离子m/z在0.1 Da内匹配;要求加合物与电离模式一致。

5. 移除近重复谱图: 研究团队发现公共谱库中存在大量高度相似的谱图(近重复谱),这可能是由于对相同数据的微小差异处理或重复上传造成的。为识别这些谱图,他们首先根据InChIKey前14位字符和极性匹配候选谱图对,然后计算每对谱图之间的余弦相似度。将余弦相似度超过0.99的谱图标记为近重复谱,并从每组中仅保留一张代表性谱图,优先选择碎片离子数量更多的谱图。

6. 最终过滤与元数据标准化: 进行最终的质量检查:移除理论值与实验值母离子m/z偏差超过10 ppm的谱图(确保高分辨率),并移出来自三重四极杆(QQQ)低分辨率仪器的谱图。将加合物类型限制在代谢组学实验中最常见的九种([M+H]+, [M+Na]+, [M+K]+, [M+NH4]+, [M]+, [M-H]-, [M+Cl]-, [M+HCOOH-H]-, [M+CH3COOH-H]-)。移除相对强度低于0.1%的碎片离子,并仅保留每张谱图中强度最高的前4096个离子。最后,手动将仪器类型映射为三类:QTOF、Orbitrap、离子阱(或未指定),并标准化碰撞能量(CE)的表示方式,以容纳斜坡或阶梯碰撞能量,每个谱图关联最多三个CE字段(均提供eV和标准化碰撞能量NCE值)。

7. 预处理策略评估(去噪与峰提取): 研究团队还评估了电子去噪和质心化(centroiding)等预处理步骤的效果。他们使用一个独立的评估指标:计算谱图间余弦相似度的接收者操作特征曲线下面积(AUROC),以衡量谱图相似性能否正确区分来自相同化合物与不同化合物的谱图。结果表明,应用去噪和质心化反而会略微降低AUROC。因此,他们决定在最终流程中包含这些步骤。同样,保留每张谱图前4096个高强度离子的宽松过滤策略对AUROC影响最小,故被采纳。

四、 主要研究结果

经过上述严格且复杂的处理流程,研究团队成功构建了SpectraVerse资源。最终版本(v1.0.1)包含 488,630张MS/MS谱图,对应于 44,237个独特的小分子。这是迄今为止用于机器学习的最全面的公共MS/MS谱库。

1. 与现有主流公共谱库的对比: 研究团队将SpectraVerse与当前最常用于训练和评估机器学习模型的两个公共谱库——MassSpecGymNPLIB1——进行了详细比较。 * 规模与广度:SpectraVerse包含的谱图数量是MassSpecGym(约24万张)的两倍多,是NPLIB1(约1万张)的40多倍。值得注意的是,研究发现MassSpecGym中存在大量近重复谱(77,774张),移除这些近重复谱后,SpectraVerse在规模上的优势更加明显(图3a, b)。 * 化学与技术的多样性: * 电离模式与加合物覆盖:MassSpecGym完全不含负离子模式谱图,且正离子模式仅限质子化和钠加合。而SpectraVerse全面涵盖了正负离子模式及九种常见加合物,更符合真实代谢组学实验的复杂性(图3c, d)。 * 谱图特征:NPLIB1中的谱图通常包含异常多的碎片离子,尤其是低强度离子,这很可能是因为该库包含了在不同碰撞能量下合并的谱图。这种“合并谱”可能与常规实验获得的单个谱图差异较大。相比之下,SpectraVerse和MassSpecGym中的谱图在碎片离子数量、m/z和强度分布上更为自然(图3e-g)。 * 化学空间覆盖:通过UMAP对三个库中所有独特化学结构进行降维可视化显示,SpectraVerse覆盖的化学空间远比其他两个库广泛(图3j)。

2. 在实际代谢组学数据注释中的性能验证: 为了评估SpectraVerse的实际应用价值,研究团队使用了一个包含2910万张MS/MS谱图的大型数据集,这些谱图来自4510项已发表的人体血液代谢组学研究。他们分别使用SpectraVerse、MassSpecGym和NPLIB1作为参考谱库,对这些实验谱图进行库搜索(使用10 ppm母离子质量容差)。结果表明,在任何余弦相似度阈值下,使用SpectraVerse能够注释的实验谱图数量都是最多的(图4)。这直接证明了SpectraVerse在技术异质性和化学多样性方面的提升,转化为了对真实代谢组学实验中遇到的代谢物更全面的覆盖能力。

3. 发现了公共谱库中先前未记录的缺陷: 在构建SpectraVerse的过程中,研究团队系统地识别并记录了一系列公共谱库中普遍存在但先前可能未被充分认识的问题,包括: * 伪MS/MS谱:所有碎片离子强度完全相同的谱图。 * 零强度碎片离子。 * MSn级谱图(n>2)。 * 结构信息缺失的谱图:如所有碎片离子m/z大于母离子m/z。 * 低分辨率谱图。 * 化学结构与谱图元数据不一致:例如,SMILES中包含了加合物离子,或两性离子处理不当。 * 大量近重复谱的存在。 这些缺陷如果不被识别和处理,可能会混淆不同机器学习模型性能比较的结果,或者导致有效的训练数据被错误丢弃。

五、 研究结论与价值

本研究成功创建并发布了SpectraVerse,这是一个经过全面处理、高度标准化、规模空前且质量可控的公共小分子MS/MS参考谱库。其科学价值与应用价值体现在以下几个方面:

  1. 为计算质谱学提供高质量基准数据集:SpectraVerse为开发、训练和公平比较用于MS/MS谱图解释(包括“化合物到MS/MS”和“MS/MS到化合物”两类方法)的机器学习模型提供了一个统一、可靠且大规模的数据基础。这有望解决因训练数据差异导致的模型性能评估混乱问题。
  2. 降低领域入门门槛:通过提供“即用型”的机器学习就绪谱库,SpectraVerse极大地减少了研究人员在数据收集、清洗和标准化方面所需的时间和专业知识,使得更多团队能够专注于模型算法的创新。
  3. 提升代谢物注释能力:SpectraVerse更广泛的化学和技术覆盖度,使其在针对真实代谢组学数据的库搜索中表现出更优的注释性能,有助于减少代谢组学中的“化学暗物质”。
  4. 揭示并系统性解决了公共数据的质量问题:研究不仅构建了资源,还通过详细的方法描述,为社区提供了一套可复现的数据处理和质量控制流程,提升了整个领域对数据质量的重视和处理能力。
  5. 开放与可持续性:SpectraVerse在Zenodo上永久存档并版本化,其预处理代码在GitHub上开源。作者承诺将持续维护和扩展该资源,以纳入未来不断增长的公共MS/MS数据。

六、 研究亮点

  1. 规模与全面性:SpectraVerse是迄今为止最大的机器可读公共MS/MS谱库,谱图数量和化合物覆盖度显著超越现有资源。
  2. 深度与严谨的数据处理:研究并非简单聚合数据,而是设计并实施了一个包含多轮手动与自动化检查的复杂预处理流程,重点解决了化学结构标准化、元数据修复、近重复谱去除等深层次问题。
  3. 对未记录缺陷的系统性发现与修正:研究明确识别并分类了公共谱库中多种可能影响机器学习模型训练的低质量或错误注释谱图类型,为领域提供了重要的警示和解决方案。
  4. 实证驱动的流程设计:在是否包含去噪、质心化等步骤的决策上,研究团队基于AUROC指标进行实证评估,而非盲目采用常规做法,体现了方法学的严谨性。
  5. 强大的实用验证:使用超大规模的真实世界代谢组学数据集验证了SpectraVerse在代谢物注释方面的优越性能,证明了其构建工作的实际应用价值。

七、 其他有价值的内容

研究团队在论文中提供了丰富的支持信息(Supporting Information),详细记录了数据收集的具体来源、matchMS的配置参数、化学结构标准化的更多示例、预处理步骤影响的进一步分析,以及与MassSpecGym和NPLIB1更详细的比较数据。这些内容为其他研究者复现或基于此工作进一步研究提供了极大的便利。此外,论文中关于如何处理两性离子和含盐SMILES等具体技术难点的讨论,对于开发类似数据处理工具的研究人员具有很高的参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com