分享自:

利用高分辨率碎片质谱对未知代谢物进行系统分类

期刊:Nature BiotechnologyDOI:10.1038/s41587-020-0740-8

基于高分辨率碎裂质谱的系统性未知代谢物分类工具CANOPUS

作者及发表信息

本研究由德国耶拿大学(Friedrich-Schiller University)生物信息学主席Sebastian Böcker团队主导,联合美国加州大学圣地亚哥分校(University of California, San Diego)质谱创新中心、芬兰阿尔托大学(Aalto University)等9家机构共同完成,于2020年发表在*Nature Biotechnology*期刊(DOI: 10.1038/s41587-020-0740-8)。

研究背景

科学领域:该研究属于代谢组学(metabolomics)与计算质谱分析的交叉领域。

研究动机
非靶向液相色谱-质谱联用技术(LC-MS/MS)可检测生物样本中数千种小分子,但当前代谢物结构注释严重依赖已知数据库(如MassBank、GNPS),导致约90%的检测分子因缺乏参考数据而无法识别(”代谢暗物质”问题)。传统方法如分子网络(molecular networking)或数据库搜索(如CSI:FingerID)仅能覆盖有限结构类别,且无法处理无训练数据的化合物类别。

技术瓶颈
1. 质谱库(spectral libraries)覆盖度低,主要包含商业化合物;
2. 结构数据库(structure databases)存在生物分子结构缺口;
3. 现有分类方法(如ClassyFire)需已知分子结构,无法直接应用于质谱数据。

研究目标
开发名为CANOPUS(Class Assignment and Ontology Prediction Using Mass Spectrometry)的计算工具,实现两大突破:
- 直接从碎裂质谱(MS/MS)预测2,497种化合物类别(包括所有生物相关类别)
- 无需依赖MS/MS训练数据即可预测新类别

研究方法与流程

1. 算法架构设计

CANOPUS采用双层机器学习模型
- 第一层:分子指纹预测
- 输入:高分辨率MS/MS谱图(质量精度<10 ppm)
- 方法:24,539个化合物的参考质谱训练支持向量机(SVM)电池,输出4,262维概率化分子指纹(molecular fingerprint)
- 创新点:采用结构不相交交叉验证(structure-disjoint cross-validation),确保评估时化合物结构完全未知

  • 第二层:深度神经网络分类
    • 输入:SVM预测的分子指纹 + 分子式(由SIRIUS软件计算)
    • 训练数据:410万化合物结构(来自PubChem等数据库)及其ClassyFire类别
    • 网络结构:
    • 指纹层→3,000神经元全连接层(ReLU激活,50% Dropout)
    • 分子式层→16神经元全连接层
    • 联合层→3,000→8,000→2,497输出神经元(线性)
    • 关键创新:通过概率指纹模拟(probabilistic fingerprint simulation)解决训练与应用的数据分布差异

2. 评估方法

  • 数据集

    • 训练集:24,539个阳性离子模式MS/MS谱(NIST 2017、GNPS、MassBank)
    • 独立测试集:3,387个化合物(Agilent PCDL库)
    • 阴性离子模式:16,785个化合物
  • 基线对比
    与四种方法比较:

    1. 直接SVM预测(CSI kernel SVM)
    2. MetFrag KNN-5(结构数据库搜索)
    3. CSI:FingerID KNN-5
    4. 谱库KNN-5(余弦相似度)
  • 评价指标

    • 马修斯相关系数(MCC)
    • 精确度(precision)与召回率(recall)

3. 应用验证

选择三个生物学场景验证实用性:
1. 小鼠消化系统微生物定植效应:分析834个LC-MS/MS样本(4只无菌GF vs 4只SPF小鼠)
2. 大戟属植物(Euphorbia)化学多样性:43个物种的代谢组数据
3. 海洋天然产物发现:蓝细菌Rivularia sp.中新型环缩肽(cyclodepsipeptide)鉴定

主要研究结果

1. 算法性能

  • 交叉验证

    • 平均准确率99.7%
    • 2,3132,497个类别预测准确率≥99%
    • 607个类别MCC≥0.8(如磷脂酰胆碱MCC=0.972)
  • 独立测试

    • 对416个”丰富类别”(≥20阳性样本):平均MCC=0.744
    • 对2,081个”稀疏类别”:微平均MCC=0.603
    • 显著优于基线方法(如CSI:FingerID KNN-5 MCC=0.692)
  • 无训练数据预测

    • 移除491个黄酮苷(flavonoid glycosides)训练数据后,仍能以MCC=0.662预测该类别
    • 对比:直接SVM预测仅8%正确率

2. 生物学发现

小鼠微生物组
- CANOPUS识别542个GF/SPF差异化合物(fold change>10)
- 胆汁酸(bile acids):在结肠和粪便中SPF小鼠显著富集(p=6.58×10⁻¹⁵),印证了Quinn等(2020)的发现
- 葡萄糖醛酸衍生物(glucuronic acids):在GF小鼠消化道累积,提示微生物参与糖苷脂代谢(如植物皂苷降解)

大戟属植物
- 发现苯甲酸酯(benzoic acid esters)的亚属特异性分布:
- Esula亚属:462/745二萜被注释为苯甲酸酯
- 与传统研究相比,CANOPUS检测到更多化合物(Extended Data Fig. 6)
- 化学分类树(chemodendrogram)与基因组系统发育树高度一致(标准化四重距离=0.396)

天然产物发现
- 鉴定新型环缩肽rivulariapeptolide 1155(C₅₉H₈₁N₉O₁₅)
- CANOPUS正确预测其类别为缩肽(depsipeptides)
- 质谱数据库搜索无匹配,CSI:FingerID前10候选均错误
- 通过NMR验证了CANOPUS预测的AHP(3-氨基-6-羟基-2-哌啶酮)结构

研究结论与价值

科学价值

  1. 方法论突破:首次实现无需MS/MS训练数据的化合物分类,解决了代谢组学中”暗物质”注释难题
  2. 技术整合:将深度神经网络与概率指纹预测结合,克服了传统方法对新类别化合物的识别局限
  3. 生物学洞察:揭示了微生物-宿主互作中糖苷脂代谢的新机制,为大戟属植物次生代谢进化提供新证据

应用价值

  • 开源工具:集成于SIRIUS 4.4软件(https://bio.informatik.uni-jena.de/software/sirius/)
  • 多领域适用
    • 天然产物发现(缩短结构鉴定周期)
    • 临床代谢组学(疾病标志物筛选)
    • 植物化学分类学(无需先验知识比较物种)

研究亮点

  1. 全面性:覆盖ClassyFire中2,497个生物相关类别,远超现有工具
  2. 鲁棒性:对无训练数据的类别仍保持高预测性能(如胆汁酸MCC=0.764)
  3. 工作流整合:从特征检测到分类的全流程自动化,支持MZmine、OpenMS等平台数据输入
  4. 跨学科影响:为化学生态学、微生物组研究、药物发现提供新分析范式

其他重要发现

  • 分子网络注释优化:在344个分子子网络中,CANOPUS纠正了传统网络传播法(如MolNetEnhancer)的类别误判(图4a)
  • 光呼吸代谢关联:大戟属植物的代谢组特征同时反映系统发育关系和CAM/C3光合途径适应
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com