分享自:

多实验室非靶向质谱代谢组学协作研究:识别瓶颈与全面注释单一数据集

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.4c05577

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多实验室非靶向质谱代谢组学协作研究:识别瓶颈问题并全面注释单一数据集

作者及机构
本研究由Joelle Houriet和Preston K. Manwill(共同第一作者)领衔,联合来自美国、加拿大、法国、荷兰、希腊等国的多个研究团队共同完成,包括University of North Carolina at Greensboro、University of British Columbia、Oregon State University等机构的研究人员。研究于2025年7月7日被《Analytical Chemistry》接收,DOI为10.1021/acs.analchem.4c05577。

学术背景
代谢组学(metabolomics)是研究生物体内小分子代谢物的关键领域,而质谱(mass spectrometry, MS)是非靶向代谢组学的核心技术。然而,质谱数据的注释(annotation)——即将质谱特征与化学结构关联——仍是当前研究的瓶颈。本研究旨在通过多实验室协作,系统性评估非靶向质谱数据注释中的挑战,并提出改进策略。研究以药用植物Ashwagandha(Withania somnifera)提取物为对象,因其富含结构相似的代谢物(如withanolides),可模拟复杂生物样本的注释难度。

研究流程与方法
1. 样本制备与数据采集
- 植物提取:采用甲醇提取Ashwagandha根部的代谢物,并通过液相色谱-质谱联用技术(LC-MS)在两种平台(Orbitrap和Q-TOF)上采集数据,共生成12种数据集(包括正/负离子模式、数据依赖采集DDA和数据非依赖采集DIA)。
- 标准化合物验证:后期引入18种商业标准品(如withaferin A、rutin等)用于验证注释结果。

  1. 多实验室协作注释

    • 参与团队:10个代谢组学专家团队独立注释至少1个正离子数据集,其中8个团队选择了Orbitrap平台的DDA数据作为主要分析对象。
    • 注释工具多样性:团队使用包括GNPS(Global Natural Product Social Molecular Networking)、SIRIUS、MS-Finder等工具,结合内部开发的算法(如MS2Analyte)和数据库(如LOTUS、HMDB)。
  2. 数据整合与共识注释

    • 特征过滤:剔除空白样本中出现的特征、保留时间异常或缺乏MS/MS谱图的特征,最终从799个初始特征中筛选出610个高质量特征。
    • 离子物种重分配:通过质量差异分析和标准品比对,修正了28.2%的离子物种描述(如将误判为[M+H]+的铵加合物[M+NH4]+重新归类)。
    • 分类学验证:利用LOTUS等数据库排除不符合Ashwagandha代谢谱的注释,将分类学相关注释比例从24.8%提升至66.3%。
  3. 注释置信度评估

    • 采用五级置信度标准(Level 1:标准品验证;Level 5:仅MS1匹配),最终确认13个Level 1注释(如withaferin A)、38个Level 2注释(实验性MS/MS匹配)。

主要结果
1. 注释一致性差异
- 各团队仅报告了共识列表中24%-57%的代谢物,且对同一特征的离子物种、化学类别和结构注释存在显著分歧。例如,withanone的铵加合物([M+NH4]+)被误判为[M+H]+,导致其注释准确率仅为50%。
- 通过logP与保留时间的相关性分析,共识注释的线性(R²=0.6749)显著优于原始注释(R²=0.4892),表明跨团队验证提升了注释可靠性。

  1. 关键瓶颈问题

    • 离子物种误判:59.3%的初始注释偏向[M+H]+,而共识仅26.1%为质子化分子,凸显了铵加合物、水丢失片段等冗余特征的误判问题。
    • 同分异构体干扰:如C28H38O6(withaferin A同分异构体)在2分钟内出现40个特征,增加了注释复杂度。
  2. 工具局限性

    • 现有工具(如GNPS、SIRIUS)未充分利用保留时间信息,导致糖苷与其苷元被错误注释为独立代谢物。例如,rutin(二糖苷)和其苷元quercetin在同一保留时间被误判为两种化合物。

结论与价值
1. 科学意义
- 首次通过多实验室协作揭示了非靶向代谢组学注释中的系统性误差,提出了基于共识的注释优化框架。
- 强调了离子物种分组(如使用CAMERA、MS-CleanR工具)和分类学验证的必要性。

  1. 应用价值
    • 发布的质谱数据集(MassIVE ID: MSV000089047)和共识注释表可作为代谢组学注释的基准数据。
    • 为开发新一代注释工具(如整合保留时间-logP预测)提供了方向。

研究亮点
1. 方法创新:首次采用“注释一致性评分”(Annotation Agreement Score)量化团队间差异,并设计“共识注释评分”评估个体与共识的吻合度。
2. 数据开放性:所有原始数据及注释结果公开,支持社区驱动的代谢组学标准化进程。
3. 跨学科协作:结合化学信息学、植物化学和质谱技术,为复杂生物样本注释树立了范例。

其他价值
- 研究呼吁加强质谱数据库建设,尤其是植物次生代谢物的MS/MS谱图提交。
- 提出了修订注释置信度标准的建议(如纳入分类学权重和MS1级证据)。


此报告全面涵盖了研究的背景、方法、结果和意义,适合向中文读者传递该研究的学术贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com