利用高分辨率碎片质谱对未知代谢物进行系统分类

分享自：
利用高分辨率碎片质谱对未知代谢物进行系统分类

生物物理及生物化学
化学
期刊:Nature BiotechnologyDOI:10.1038/s41587-020-0740-8
【点击此处】阅读全文、收藏及针对性提问
基于高分辨率碎裂质谱的系统性未知代谢物分类方法：CANOPUS研究
作者及发表信息
 本研究由德国耶拿弗里德里希·席勒大学的Kai Dührkop、Sebastian Böcker团队联合美国加州大学圣迭戈分校、芬兰阿尔托大学等机构的合作者共同完成，成果发表于2021年4月的《Nature Biotechnology》期刊（DOI: 10.1038/s41587-020-0740-8）。
学术背景
 代谢组学（Metabolomics）通过非靶向串联质谱（LC-MS/MS）可检测生物样本中数千种小分子，但现有技术对代谢物的结构注释严重依赖数据库匹配，导致约80%的检测分子无法被识别。传统方法如光谱库搜索或结构数据库匹配（如MetFrag、CSI:FingerID）仅能覆盖已知化合物，且受限于数据库的完整性和覆盖范围。此外，化合物类别（Compound Class）的预测常需先完成结构注释，而类别定义本身（如ChEBI或MeSH中的分类）复杂且不统一。为此，研究团队开发了CANOPUS（Class Assignment and Ontology Prediction Using Mass Spectrometry），旨在直接从碎裂质谱预测2,497种化合物类别，突破结构未知代谢物的分类瓶颈。
研究流程与方法
 1. 数据准备与模型训练
 - 训练数据集：
 - 质谱数据：整合NIST 2017、GNPS和MassBank的24,539个化合物（正离子模式）和16,785个化合物（负离子模式）的MS/MS谱图。
 - 结构数据：从PubChem等数据库中提取410万分子结构，通过ClassyFire确定其类别标签。
 - 分子指纹预测：
 使用支持向量机（SVM）从质谱预测分子指纹（Molecular Fingerprint），编码分子子结构信息。训练中采用十折交叉验证，确保结构独立性。
 - 深度神经网络（DNN）构建：
 - 输入层：分子指纹（4,262维）和分子式特征（元素组成、质量等）。
 - 网络结构：多层全连接（3,000-8,000神经元），采用ReLU激活函数和50% Dropout。
 - 输出：2,497个化合物类别的多标签分类。
 - 创新性采样方法：
 为模拟实际预测中的不确定性，设计两种指纹采样策略：独立位置采样（模拟单属性误差）和相关性采样（考虑属性间关联），提升DNN对未知结构的泛化能力。
方法验证与基线对比
评估指标：
 使用马修斯相关系数（MCC）和准确率，在独立数据集（3,387个化合物）上测试。
 
基线方法：
 直接类别预测（SVM）、基于MetFrag/CSI:FingerID的K近邻（KNN-5）、光谱库KNN-5。
 
结果：
 CANOPUS在富集类别（416类）中平均MCC达0.744，显著优于基线（如CSI:FingerID KNN-5的0.692）。即使对无MS/MS训练数据的类别（如黄酮苷类），仍能通过结构特征推理达到MCC=0.662。
应用案例
微生物定植对小鼠消化系统的影响：
 分析无菌（GF）与病原体特异性（SPF）小鼠的代谢差异。CANOPUS发现胆汁酸类（Bile Acids）在结肠和粪便中差异显著（p=6.58×10⁻¹⁵），并揭示糖苷化脂质（如异黄酮苷）在GF小鼠中积累，提示微生物参与去糖苷化代谢。
 
大戟属植物化学多样性：
 对43种大戟属植物分析显示，二萜类（Diterpenoids）在Esula和Euphorbia亚属中多样性更高，且苯甲酸酯类（Benzoic Acid Esters）分布与系统发育和光合代谢途径相关。
 
新型环缩肽发现：
 在海洋蓝藻中鉴定出新型环缩肽Rivulariapeptolide 1155，CANOPUS预测其类别为缩酚酸肽（Depsipeptides），并通过核磁共振验证了其结构。
主要结果与逻辑关联
 - 高精度分类：交叉验证中平均准确率99.7%，2,313个类别的准确率≥99%。DNN通过结构数据库训练，无需MS/MS数据即可预测新类别。
 - 生物学发现：
 - 小鼠数据揭示了微生物对胆汁酸代谢的调控机制。
 - 大戟属分析表明代谢组受系统发育和光合途径双重驱动。
 - 技术优势：CANOPUS突破了传统方法对数据库完整性的依赖，首次实现无参考数据的类别预测。
结论与价值
 CANOPUS为代谢组学提供了全新的化合物类别注释工具，其核心价值在于：
 1. 科学价值：解决了未知代谢物的分类难题，推动代谢组学从“结构注释”转向“功能注释”。
 2. 应用价值：适用于天然产物发现、疾病标志物筛选、环境代谢组学等领域。例如，加速了海洋天然产物的结构鉴定流程。
 3. 方法论创新：融合SVM与DNN的异构训练框架，实现了从质谱到类别的端到端预测。
研究亮点
 1. 全面性：覆盖2,497个生物相关类别，包括所有ChEBI和MeSH中的主要类群。
 2. 鲁棒性：对无训练数据的类别仍能保持较高预测性能。
 3. 集成化：已嵌入SIRUS和GNPS平台，支持从原始数据到类别注释的一站式分析。
其他价值
 CANOPUS的分类结果可用于构建“化学分类树”（Chemodendrogram），与基因组系统发育树对比，揭示代谢进化规律。此外，其预测框架可扩展至其他属性（如毒性或生物活性），为多组学整合提供新思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问