本研究由德国耶拿大学(Friedrich-Schiller University)生物信息学主席Sebastian Böcker团队主导,联合美国加州大学圣地亚哥分校(University of California, San Diego)质谱创新中心、芬兰阿尔托大学(Aalto University)等9家机构共同完成,于2020年发表在*Nature Biotechnology*期刊(DOI: 10.1038/s41587-020-0740-8)。
科学领域:该研究属于代谢组学(metabolomics)与计算质谱分析的交叉领域。
研究动机:
非靶向液相色谱-质谱联用技术(LC-MS/MS)可检测生物样本中数千种小分子,但当前代谢物结构注释严重依赖已知数据库(如MassBank、GNPS),导致约90%的检测分子因缺乏参考数据而无法识别(”代谢暗物质”问题)。传统方法如分子网络(molecular networking)或数据库搜索(如CSI:FingerID)仅能覆盖有限结构类别,且无法处理无训练数据的化合物类别。
技术瓶颈:
1. 质谱库(spectral libraries)覆盖度低,主要包含商业化合物;
2. 结构数据库(structure databases)存在生物分子结构缺口;
3. 现有分类方法(如ClassyFire)需已知分子结构,无法直接应用于质谱数据。
研究目标:
开发名为CANOPUS(Class Assignment and Ontology Prediction Using Mass Spectrometry)的计算工具,实现两大突破:
- 直接从碎裂质谱(MS/MS)预测2,497种化合物类别(包括所有生物相关类别)
- 无需依赖MS/MS训练数据即可预测新类别
CANOPUS采用双层机器学习模型:
- 第一层:分子指纹预测
- 输入:高分辨率MS/MS谱图(质量精度<10 ppm)
- 方法:24,539个化合物的参考质谱训练支持向量机(SVM)电池,输出4,262维概率化分子指纹(molecular fingerprint)
- 创新点:采用结构不相交交叉验证(structure-disjoint cross-validation),确保评估时化合物结构完全未知
数据集:
基线对比:
与四种方法比较:
评价指标:
选择三个生物学场景验证实用性:
1. 小鼠消化系统微生物定植效应:分析834个LC-MS/MS样本(4只无菌GF vs 4只SPF小鼠)
2. 大戟属植物(Euphorbia)化学多样性:43个物种的代谢组数据
3. 海洋天然产物发现:蓝细菌Rivularia sp.中新型环缩肽(cyclodepsipeptide)鉴定
交叉验证:
独立测试:
无训练数据预测:
小鼠微生物组:
- CANOPUS识别542个GF/SPF差异化合物(fold change>10)
- 胆汁酸(bile acids):在结肠和粪便中SPF小鼠显著富集(p=6.58×10⁻¹⁵),印证了Quinn等(2020)的发现
- 葡萄糖醛酸衍生物(glucuronic acids):在GF小鼠消化道累积,提示微生物参与糖苷脂代谢(如植物皂苷降解)
大戟属植物:
- 发现苯甲酸酯(benzoic acid esters)的亚属特异性分布:
- Esula亚属:462/745二萜被注释为苯甲酸酯
- 与传统研究相比,CANOPUS检测到更多化合物(Extended Data Fig. 6)
- 化学分类树(chemodendrogram)与基因组系统发育树高度一致(标准化四重距离=0.396)
天然产物发现:
- 鉴定新型环缩肽rivulariapeptolide 1155(C₅₉H₈₁N₉O₁₅)
- CANOPUS正确预测其类别为缩肽(depsipeptides)
- 质谱数据库搜索无匹配,CSI:FingerID前10候选均错误
- 通过NMR验证了CANOPUS预测的AHP(3-氨基-6-羟基-2-哌啶酮)结构