分享自:

利用高分辨率碎片质谱对未知代谢物进行系统分类

期刊:Nature BiotechnologyDOI:10.1038/s41587-020-0740-8

基于高分辨率碎裂质谱的系统性未知代谢物分类方法:CANOPUS研究

作者及发表信息
本研究由德国耶拿弗里德里希·席勒大学的Kai Dührkop、Sebastian Böcker团队联合美国加州大学圣迭戈分校、芬兰阿尔托大学等机构的合作者共同完成,成果发表于2021年4月的《Nature Biotechnology》期刊(DOI: 10.1038/s41587-020-0740-8)。

学术背景
代谢组学(Metabolomics)通过非靶向串联质谱(LC-MS/MS)可检测生物样本中数千种小分子,但现有技术对代谢物的结构注释严重依赖数据库匹配,导致约80%的检测分子无法被识别。传统方法如光谱库搜索或结构数据库匹配(如MetFrag、CSI:FingerID)仅能覆盖已知化合物,且受限于数据库的完整性和覆盖范围。此外,化合物类别(Compound Class)的预测常需先完成结构注释,而类别定义本身(如ChEBI或MeSH中的分类)复杂且不统一。为此,研究团队开发了CANOPUS(Class Assignment and Ontology Prediction Using Mass Spectrometry),旨在直接从碎裂质谱预测2,497种化合物类别,突破结构未知代谢物的分类瓶颈。

研究流程与方法
1. 数据准备与模型训练
- 训练数据集
- 质谱数据:整合NIST 2017、GNPS和MassBank的24,539个化合物(正离子模式)和16,785个化合物(负离子模式)的MS/MS谱图。
- 结构数据:从PubChem等数据库中提取410万分子结构,通过ClassyFire确定其类别标签。
- 分子指纹预测
使用支持向量机(SVM)从质谱预测分子指纹(Molecular Fingerprint),编码分子子结构信息。训练中采用十折交叉验证,确保结构独立性。
- 深度神经网络(DNN)构建
- 输入层:分子指纹(4,262维)和分子式特征(元素组成、质量等)。
- 网络结构:多层全连接(3,000-8,000神经元),采用ReLU激活函数和50% Dropout。
- 输出:2,497个化合物类别的多标签分类。
- 创新性采样方法
为模拟实际预测中的不确定性,设计两种指纹采样策略:独立位置采样(模拟单属性误差)和相关性采样(考虑属性间关联),提升DNN对未知结构的泛化能力。

  1. 方法验证与基线对比

    • 评估指标
      使用马修斯相关系数(MCC)和准确率,在独立数据集(3,387个化合物)上测试。
    • 基线方法
      • 直接类别预测(SVM)、基于MetFrag/CSI:FingerID的K近邻(KNN-5)、光谱库KNN-5。
    • 结果
      CANOPUS在富集类别(416类)中平均MCC达0.744,显著优于基线(如CSI:FingerID KNN-5的0.692)。即使对无MS/MS训练数据的类别(如黄酮苷类),仍能通过结构特征推理达到MCC=0.662。
  2. 应用案例

    • 微生物定植对小鼠消化系统的影响
      分析无菌(GF)与病原体特异性(SPF)小鼠的代谢差异。CANOPUS发现胆汁酸类(Bile Acids)在结肠和粪便中差异显著(p=6.58×10⁻¹⁵),并揭示糖苷化脂质(如异黄酮苷)在GF小鼠中积累,提示微生物参与去糖苷化代谢。
    • 大戟属植物化学多样性
      对43种大戟属植物分析显示,二萜类(Diterpenoids)在Esula和Euphorbia亚属中多样性更高,且苯甲酸酯类(Benzoic Acid Esters)分布与系统发育和光合代谢途径相关。
    • 新型环缩肽发现
      在海洋蓝藻中鉴定出新型环缩肽Rivulariapeptolide 1155,CANOPUS预测其类别为缩酚酸肽(Depsipeptides),并通过核磁共振验证了其结构。

主要结果与逻辑关联
- 高精度分类:交叉验证中平均准确率99.7%,2,313个类别的准确率≥99%。DNN通过结构数据库训练,无需MS/MS数据即可预测新类别。
- 生物学发现
- 小鼠数据揭示了微生物对胆汁酸代谢的调控机制。
- 大戟属分析表明代谢组受系统发育和光合途径双重驱动。
- 技术优势:CANOPUS突破了传统方法对数据库完整性的依赖,首次实现无参考数据的类别预测。

结论与价值
CANOPUS为代谢组学提供了全新的化合物类别注释工具,其核心价值在于:
1. 科学价值:解决了未知代谢物的分类难题,推动代谢组学从“结构注释”转向“功能注释”。
2. 应用价值:适用于天然产物发现、疾病标志物筛选、环境代谢组学等领域。例如,加速了海洋天然产物的结构鉴定流程。
3. 方法论创新:融合SVM与DNN的异构训练框架,实现了从质谱到类别的端到端预测。

研究亮点
1. 全面性:覆盖2,497个生物相关类别,包括所有ChEBI和MeSH中的主要类群。
2. 鲁棒性:对无训练数据的类别仍能保持较高预测性能。
3. 集成化:已嵌入SIRUS和GNPS平台,支持从原始数据到类别注释的一站式分析。

其他价值
CANOPUS的分类结果可用于构建“化学分类树”(Chemodendrogram),与基因组系统发育树对比,揭示代谢进化规律。此外,其预测框架可扩展至其他属性(如毒性或生物活性),为多组学整合提供新思路。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com