基于母离子子式图从质谱数据中确定母离子及其相关碎片离子分子式的计算方法研究
一、 研究团队与发表信息
本研究由Sean Li(第一作者及通讯作者)、Björn Bohman、Gavin R. Flematti和Dylan Jayatilaka共同完成,所有作者均来自西澳大利亚大学(The University of Western Australia)分子科学学院,其中Björn Bohman亦隶属于瑞典农业科学大学植物保护生物学系。该研究成果于2023年以开放获取(Open Access)的形式发表于学术期刊《Journal of Cheminformatics》上。
二、 学术背景与研究目的
本研究属于计算化学信息学与质谱分析技术的交叉领域,具体聚焦于高分辨质谱(HR-MS)数据的解析,特别是从复杂的质谱图中自动、准确地推断出未知化合物的分子式及其碎片离子的分子式。
在天然产物化学、代谢组学、环境分析等领域,利用质谱(MS)鉴定未知化合物是一项核心且具有挑战性的任务。尽管仪器技术不断进步,但从质谱数据中,尤其是当母离子丰度低或与其他离子重叠时,明确确定未知化合物的分子式仍然是一个关键瓶颈。传统的辅助方法包括:1)同位素轮廓匹配,利用同位素峰的丰度比进行筛选;2)基于经验规则的过滤(如“氮规则”、七条黄金法则等);3)利用串联质谱(MS/MS)提供的碎片信息进行约束。
近年来,基于图论的方法在质谱解析中显示出潜力。例如,Böcker等人提出了“碎片树”(Fragmentation Tree, FT)的概念,通过构建和评分候选碎片网络来注释谱图。Pluskal等人在MZmine软件中引入了“MS/MS分数”,即可以被指定为母离子子式的碎片峰数量占总峰数的比例,用于筛选候选分子式。Guillevic等人则提出了“伪碎片图”(Pseudo-Fragmentation Graph)用于非靶向筛查。
然而,现有方法或依赖于复杂的、可能需要经验拟合参数的评分模型,或未能充分利用碎片离子之间的子式关系网络所蕴含的整体信息。本研究旨在提出一种新的、更普适且易于解释的方法,用于从电子轰击电离质谱(EI-MS)和串联质谱(MS/MS)数据中识别正确的母离子分子式。该方法的核心是构建和评估一种称为“母离子子式图”(Parent Subformula Graph, PSG)的图结构,并基于其拓扑特性(而不仅仅是顶点数量)设计简单有效的评分函数。研究的目标是证明,与广泛使用的“MS/MS分数”相比,结合PSG边信息的评分方法能在多种数据集上实现更优的母离子分子式识别性能,并能有效处理复杂、存在干扰的EI-MS数据,甚至在母离子不明确时辅助其定位。
三、 详细研究流程与方法
本研究的工作流程主要包括方法定义、算法实现、数据集构建、性能评估验证以及可视化工具开发。
1. 核心概念与算法流程定义 首先,研究团队对关键概念进行了形式化的数学定义: * 质谱与候选分子式:将质谱视为一系列质量峰及其强度的集合。对于每个实测质量峰,根据设定的质量容差(如3σ,对应约99.7%置信区间),利用“货币兑换问题”(Money-Changing Problem)算法生成所有理论上可能的分子式候选列表。这通过“分子式树”(Molecular Formula Tree)方法高效实现。 * 子式限制:基于碎片离子来源于母离子的单分子解离反应这一基本假设,任何碎片离子的分子式必须是其母离子分子式的子集(即原子组成上是其子集)。这是一个核心约束条件。 * 子式图与母离子子式图:子式图(Subformula Graph, SG)是一个有向无环图(DAG),其顶点代表被分配了特定分子式的质量峰,如果顶点A的分子式是顶点B分子式的子式,则存在一条从B指向A的边。对于一个给定的候选母离子分子式,可以为其构建一个独特的母离子子式图。PSG的构建规则是:为每个碎片质量峰分配一个分子式,该分子式需同时满足两个条件:1)是该峰所有候选分子式中质量偏差最小的;2)是所选候选母离子分子式的子式。这样,每个候选母离子分子式都对应一个唯一的PSG。
2. 评分函数设计 为了评估每个候选母离子分子式的优劣,研究提出了两个基于PSG拓扑结构的简单评分函数,它们不依赖于经验参数或特定碎片规则: * 标准化边计数分数:计算PSG中实际存在的边数占理论上可能的最大边数(基于总峰数)的比例。该分数反映了整个谱图中可被解释的“子式-父式”关系的密集程度。 * 乘积分数:结合了“MS/MS分数”(即PSG中可被注释的顶点数占总峰数的比例,记为Sv)和图密度(PSG中实际边数占其实际顶点数可能的最大边数的比例)。该分数旨在平衡可注释峰的数量和注释内部结构的连贯性。研究中以其作者姓氏首字母命名为LBJ分数。
作为对比基线,研究也计算了等同于Pluskal等人“MS/MS分数”的标准化顶点计数分数。
3. 数据集与实验设置 研究使用了三个具有不同特点的数据集进行方法验证: * CASMI 2016数据集:包含622个单同位素MS/MS谱图(电喷雾电离,ESI),主要用于代谢物鉴定。该数据集提供了母离子和碎片离子的已验证分子式注释。质量误差设为1 ppm。元素集分别测试了CHNO+(基础元素加上S/P/Cl/Br/I中的存在元素)、CHNOP+和CHNOPF+。 * RECETOX 2021数据集:包含386个高分辨气相色谱-电子轰击电离-轨道阱质谱(GC-EI-Orbitrap MS)谱图,用于环境污染物鉴定。该数据集仅标注了母离子分子式,且谱图中包含同位素峰。质量误差设为3 ppm。使用CHNO+元素集。 * Orchid 2023数据集:包含23个来自西澳大利亚性欺骗兰花信息素的GC-EI-TOF MS谱图。这些样本成分复杂,目标化合物含量低,母离子信号可能很弱或与背景重叠,是“非理想”数据的代表。质量误差设为10 ppm,母离子质量搜索范围设定在130-250 Da。
对于每个数据集,研究排除了仅包含母离子峰或母离子峰缺失的谱图。对于每个候选母离子分子式,计算其PSG及上述评分函数,然后根据分数对候选分子式进行排序(分数相同则按质量偏差排序)。正确的分子式排名越靠前(如排名第一,或在前四名内),说明方法性能越好。
4. 针对复杂EI-MS数据的扩展方法 对于Orchid这类母离子可能不明确的数据集,研究对方法进行了扩展:不假定最大质量峰就是母离子,而是在用户指定的合理质量范围内,将每一个质量峰都视为潜在的母离子候选质量。对于每一个这样的候选质量,程序会先根据设定的强度阈值过滤掉可能的噪声峰,然后以该候选质量为“母离子”构建PSG并评分。最终,程序会输出所有候选质量及其对应最佳分子式的评分排名。这使得方法能够从复杂谱图中同时推断出最可能的母离子质量和分子式。
5. 可视化工具开发 研究还引入了“二维碎片图”(2D Fragmentation Plot, 2DFP)用于可视化PSG。该图类似于二维核磁共振谱图,横纵坐标均为质荷比(m/z),图中的点表示一对质量峰,其中一个峰的注释分子式是另一个峰注释分子式的子式。通过观察2DFP中点的分布模式,分析者可以直观地判断某个候选分子式注释的合理性。
6. 软件实现 研究团队用Python 3开发了实现上述方法的程序,并开源在GitHub上。程序包含分子式生成、谱图读取、PSG计算与评分、可视化等多个模块,支持多种质谱数据格式。
四、 主要研究结果
1. 碎片离子注释的准确性 在CASMI 2016数据集上评估了PSG方法对碎片离子分子式注释的准确性。结果显示,当使用PSG(即基于碎片离子质量本身寻找最优子式)而非基于中性丢失质量寻找最优子式的方法时,在给定的质量容差下,其注释的阳性预测值显著更高(例如在5 ppm容差下,PPV ≈ 0.996 vs 0.970)。这表明,一旦确定了正确的母离子分子式,PSG方法能够以极高的准确率为碎片峰分配正确的分子式,为后续的结构解析提供了可靠基础。
2. 母离子分子式识别性能对比 在三个数据集上,将新提出的标准化边计数分数和LBJ乘积分数与传统的标准化顶点计数分数进行了对比。 * CASMI 2016数据集:在使用最小元素集(CHNO+)时,三种方法性能相近(排名第一的正确率约86.6%-90.3%)。但随着元素集扩大(候选分子式数量增多),新方法的优势变得明显。在使用最大的CHNOPF+元素集时,LBJ分数将正确母离子分子式排名第一的比例从基线方法的58.9%提升到了76.3%,排名前四的比例从83.8%提升到了92.0%。平均相对排名位置也显著改善。 * RECETOX 2021数据集:由于存在未去除的同位素峰干扰,所有方法的性能均有所下降。但新方法仍优于基线。在去除含有三个及以上氯/溴原子(这些元素会产生强同位素簇干扰)的化合物后,标准化边计数分数将排名第一的正确率从基线方法的68.1%提升到了77.5%。 * Orchid 2023数据集:这是最具挑战性的场景。基线方法(顶点计数)表现很差,仅能将13%的正确分子式排名第一,30.4%排进前四。而LBJ乘积分数表现优异,将47.8%的正确分子式排名第一,87.0%排进前四。更重要的是,扩展后的方法成功地从这些复杂谱图中定位出了正确的母离子质量(即使其强度很低),并给出了正确的分子式排名。
3. 候选分子式数量对性能的影响 分析表明,当候选分子式数量较多时(通常对应于分子量较大或允许的元素种类较多),新提出的两个评分函数相对于基线方法的优势更为显著。这说明新方法在从大量可能性中筛选出正确答案方面更具辨别力。
4. 二维碎片图的应用实例 研究通过一个具体案例展示了2DFP的效用。对于同一个质谱图,分别基于得分最高(但错误)的候选分子式和正确的候选分子式生成PSG并绘制2DFP。错误的候选分子式产生的2DFP中,可解释的“子式-父式”关系点(绿点)分布稀疏且模式异常;而正确的候选分子式产生的2DFP则显示出密集、连贯的绿点分布模式,直观地支持了其正确性。这表明2DFP可以作为评分函数之外的一种有价值的辅助诊断工具。
五、 研究结论与价值
本研究提出并验证了一种基于母离子子式图(PSG)及其拓扑评分的新方法,用于从质谱数据中鉴定未知化合物的分子式。主要结论如下: 1. 方法有效性:所提出的PSG方法及基于其边信息的评分函数(标准化边计数分数和LBJ乘积分数),在多种类型的质谱数据(LC-MS/MS和GC-EI-MS)上, consistently outperforms 传统的“MS/MS分数”(即顶点计数分数),特别是在候选分子式数量众多时优势更明显。 2. 碎片注释可靠性:当正确的母离子分子式被确定后,基于PSG的启发式方法能够以极高的准确率为其大部分相关碎片离子分配正确的分子式,实现了近乎完整的谱图注释。 3. 处理复杂数据能力:通过扩展,该方法能够从信噪比低、存在共洗脱干扰的复杂GC-EI-MS谱图中,自动识别出最可能的母离子质量及其对应的分子式,大大减少了对专家人工干预的依赖。 4. 实用工具:开发的2DFP可视化工具能够直观展示候选分子式解释谱图的合理性,为分析人员提供了除数值评分外的图形化判据。
本研究的科学价值在于:1)清晰定义并形式化了“子式图”和“母离子子式图”的概念,为基于图论的质谱解析提供了一个清晰的理论框架;2)证明了仅利用PSG的简单拓扑属性(边数和顶点数)构建的评分函数,即可显著提升分子式鉴别的性能,这为开发更复杂、更强大的图网络评分模型奠定了基础。其应用价值在于提供了一种易于实现、无需大量训练数据或经验参数、且适用于多种电离方式质谱数据的通用分子式鉴定工具,尤其有助于在天然产物发现、代谢组学筛查等领域的未知化合物鉴定工作。
六、 研究亮点
七、 其他有价值内容
研究在讨论部分展望了未来可能的改进方向,例如:1)为评分函数引入权重因子以针对不同化合物类别或数据质量进行优化;2)探索PSG的其他拓扑特征(如最长路径、最大团大小)作为机器学习模型的输入特征;3)将同位素分布信息整合到PSG构建或评分过程中。这些方向为进一步提升方法性能指明了道路。
此外,研究还详细探讨了在Orchid数据集分析中遇到的一些边缘案例,例如当正确分子式因存在强同位素干扰或共洗脱化合物而被排名较低时,如何结合2DFP中的信息(如最大中性丢失的质量、高丰度未解释峰的数量)进行人工研判,体现了该方法与专家知识相结合的实际应用策略。