胆汁酸区域与立体异构体注释的MS/MS质谱过滤树:一种基于质谱查询语言的工作流程及其在公共数据回顾性分析中的应用
一、 研究团队与发表信息
本研究由来自美国加州大学圣地亚哥分校(University of California San Diego)Skaggs药学院与药理学系、质谱创新合作中心以及微生物组创新中心的Pieter C. Dorrestein教授领衔,联合了包括Ipsita Mohanty、Shipei Xing、Vanessa Castillo、Julius Agongo、Abubaker Patan、Yasin El Abiead、Helena Mannochio-Russo、Wilhan D. Gonçalves Nunes、Jasmine Zemlin、Lee R. Hagey在内的校内团队,以及以色列本-古里安大学(Ben-Gurion University of the Negev)的Itzhak Mizrahi教授、加州大学河滨分校(University of California, Riverside)的Mingxun Wang教授和Dionicio Siegel教授共同完成。该研究成果以题为“ms/ms mass spectrometry filtering tree for bile acid regio- and stereoisomer annotation”的论文形式,于2026年1月6日在线发表于分析化学领域的权威期刊《Analytical Chemistry》(DOI: 10.1021/acs.analchem.5c05677)。该论文遵循CC-BY-NC-ND 4.0许可协议。
二、 学术背景与研究目的
研究领域: 本研究属于代谢组学(Metabolomics)与分析化学的交叉领域,具体聚焦于胆汁酸(Bile Acids)的结构解析与高通量注释技术。
研究背景与动机: 胆汁酸是由胆固醇衍生的一类关键甾体分子,在调节免疫、营养吸收、胰岛素信号、食欲和体温等多种生物学过程中扮演核心角色。近年来,随着非靶向液相色谱-串联质谱(Untargeted LC-MS/MS)技术的发展,在代谢组学实验中检测到的胆汁酸数量呈爆炸式增长,已达数千甚至可能近万种,其中绝大多数尚未完成完整的结构表征。然而,胆汁酸结构解析面临一个巨大挑战:其甾体核心(由四个环和侧链组成)上羟基(-OH)的位置(区域化学,regiochemistry)和空间取向(立体化学,stereochemistry)的不同,会产生大量的同分异构体。这些异构体具有非常相似的MS/MS质谱图,导致传统的基于谱库余弦相似性匹配(Spectral Matching)的方法无法有效区分它们。此外,获取所有可能异构体的合成标准品进行验证成本极高且不现实。因此,开发一种不依赖于标准品、能够直接从MS/MS谱图中推断胆汁酸核心区域与立体化学的通用方法,对于深入挖掘胆汁酸的生物学功能、理解其与健康和疾病的关系至关重要。
研究目的: 本研究旨在提出并验证一个“概念验证”(Proof-of-Concept)工作流程,即利用质谱查询语言(Mass Spectrometry Query Language, MassQL)构建一个多步骤的过滤树(Filtering Tree),通过分析MS/MS谱图中特定离子对的相对强度比,来区分非靶向LC-MS/MS数据中的胆汁酸异构体。该方法的关键优势在于可以“回顾性”(Retrospectively)应用于已存在于公共数据仓库中的现有LC-MS/MS数据集。为了便于应用,团队还开发了一个基于网络的应用程序(Web-based Application),简化了过滤树工作流程,无需用户具备编程专业知识。
三、 详细研究流程
本研究流程复杂且环环相扣,主要包括方法开发、验证、工具创建及实际应用四个主要阶段。
第一阶段:方法开发与MassQL过滤树构建 1. 标准品数据采集: 研究团队使用了已故Alan Hofmann博士实验室传承的48种牛磺酸结合型(Taurine-Conjugated)胆汁酸标准品(包括单羟基、双羟基、三羟基及酮基变体)。在Thermo Q-Exactive Orbitrap质谱仪上,通过数据依赖性采集(DDA)模式,在归一化碰撞能量(NCE)为45%的条件下,获得了这些标准品的高质量MS/MS谱图(数据已公开,MSV000092003)。 2. 诊断离子对筛选: 通过对数百个胆汁酸MS/MS谱图进行人工检查,研究人员发现,尽管高丰度碎片离子非常相似,但在低强度区域(特别是m/z 150-300范围内),特定离子对的相对强度比在不同异构体间存在稳定且可区分的差异。例如,对于牛磺鹅去氧胆酸(Taurochenodeoxycholic Acid, TCDCA, 7α-OH)和牛磺去氧胆酸(Taurodeoxycholic Acid, TDCA, 12α-OH)这对区域异构体,其高强谱图余弦相似度高达0.9664,但离子对m/z 201.163和m/z 211.148的强度比(TCDCA中约为4:1,TDCA中约为1:2)能可靠地区分它们。这些离子对通常质量接近,受碰撞能量变化的影响较小。 3. MassQL查询构建与过滤树设计: 基于上述观察,研究者为单羟基、双羟基和单酮双羟基、三羟基和单酮单羟基胆汁酸分别设计了树状结构的MassQL查询序列。以双羟基过滤树为例(图2): * 步骤1: 使用先前已发表的MassQL查询,通过检测胆汁酸诊断离子(如双羟基的m/z 321.26和339.27),从所有MS/MS谱图中初步筛选出候选双羟基(及单酮)胆汁酸。 * 步骤2: 利用特定离子(如m/z 161.132)区分单酮胆汁酸和真正的(非酮)双羟基胆汁酸。 * 步骤3: 通过过滤丢失胺/氨基酸部分([M+H-胺]+)的碎片离子,筛选出酰胺化(Amidated)的胆汁酸谱图,排除其他加合物、源内碎片等多离子形式干扰。 * 步骤4及后续: 应用一系列基于特定离子检测和强度比的MassQL查询,将谱图逐步分入不同的“分支”。例如,通过检测离子对m/z 201.163和m/z 211.148的强度比,可以分离出含有12α-OH的谱图。最终,双羟基树形成了五个“终端箱”(Terminal Bins),分别对应3,7-(OH)2、3/7,12β-(OH)2、3,6-(OH)2、3,12α-(OH)2和7,12α-(OH)2等核心异构体类别。单羟基和三羟基树也采用了类似的策略。
第二阶段:方法验证与性能评估 1. 假发现率(FDR)计算: 为了评估MassQL查询的特异性,研究团队使用公共GNPS谱库(bilelib19)中已知立体化学的胆汁酸参考谱图(n=152-1524,来自不同仪器和碰撞能量)作为验证集。针对每个查询,计算了其假发现率(即错误分类的谱图比例)。大多数查询的FDR在0.5%至18%之间,表明方法具有较好的可靠性。部分类别因标准品有限,FDR较高或无法计算。 2. 公共谱库注释: 将构建的MassQL过滤树应用于团队前期从公共数据仓库(GNPS/Massive)中挖掘出的、包含40,586个MS/MS谱图的候选胆汁酸库。经过过滤和聚类,成功对其中911个谱图(35个单羟基,157个双羟基,719个三羟基)的核心区域/立体化学进行了注释,并以此创建了一个名为“gnps-massql-bile-acid-isomer”的公开谱库,作为GNPS2上的传播库(Propagated Library)供社区使用。
第三阶段:工具开发——多步骤MassQL应用 为使该方法易于使用,团队开发了一个用户友好的网络应用程序“Multi-Step MassQL Bile Acid Isomer Annotation”(https://multistep-massql.gnps2.org/)。该应用集成在GNPS2平台中,用户只需提供一个来自经典分子网络(CMN)或基于特征的分子网络(FBMN)分析的任务ID。应用会自动获取谱图文件,运行预配置的多步骤MassQL查询,并将结果以交互式桑基图(Sankey Plot)和表格形式呈现,展示每个特征(Feature)在过滤树中的分类路径和最终异构体分配。
第四阶段:实际应用——公共数据集的回顾性分析 为展示该方法在挖掘公共数据中的价值,研究团队重新分析了一个已公开的动物粪便数据集(MSV000086131/MSV000091663),包含13种哺乳动物(3种食草动物,23种杂食动物,13种食肉动物)的样本。 1. 数据处理: 使用MZmine 4进行特征提取,在GNPS2上进行FBMN分析,并与GNPS谱库匹配,初步识别出993个胆汁酸谱图匹配。 2. MassQL过滤树应用: 将FBMN输出的聚类谱图文件(MGF格式)输入到多步骤MassQL应用中进行异构体解析。 * 步骤1: 543个MS/MS谱图具有胆汁酸诊断离子。 * 步骤2 & 3: 过滤掉非酰胺化和酮基变体,得到96个酰胺化胆汁酸。 * 步骤4: 应用异构体特异性过滤,最终成功对49个MS/MS谱图的核心区域/立体化学进行了预测性注释,其中大部分为双羟基胆汁酸。 3. 新胆汁酸发现与验证: 分析发现一个先前未被表征的胆汁酸,最初被谱库匹配为(OH)2-N-乙酰腐胺((OH)2-N-acetyl-putrescine),且与鹅去氧胆酸(CDCA)结合形式相似。然而,MassQL过滤树将其精确地归类到3,12α-(OH)2分支,提示其核心可能是去氧胆酸(Deoxycholic Acid, DCA)。为验证此预测,团队合成了3α,12α-、3β,12α-和3α,12β-N-乙酰腐胺三种可能的立体异构体标准品。通过保留时间匹配和MS/MS谱图比对(余弦相似度0.9801),最终确认该未知物为去氧胆酸-N-乙酰腐胺(Deoxycholyl-N-acetyl-putrescine,即3α,12α-(OH)2-N-乙酰腐胺),并且在食肉动物粪便中含量升高。这一发现不仅确认了一个新胆汁酸结构,也证明了MassQL过滤树能够纠正或细化传统谱库匹配的结果。
四、 主要研究结果
五、 结论与研究意义
本研究提出并验证了一种创新的计算策略,首次实现了仅基于MS/MS碎裂谱图、无需标准品的情况下,对胆汁酸核心区域和立体异构体进行大规模、回顾性注释。其核心价值在于:
六、 研究亮点
七、 其他有价值内容
研究也坦诚地讨论了当前方法的局限性:(1) 查询的覆盖度受限于现有标准品的数量,尚未涵盖所有可能的胆汁酸异构体(如未结合型胆汁酸)。(2) 若色谱未能分离的异构体共流出,产生的混合MS/MS谱图会导致过滤树无法准确分配。(3) 部分查询依赖低强度离子,在低浓度样品中可能检测不到,导致假阴性。作者展望未来可通过机器学习方法、收集更多标准品数据以及优化色谱分离来进一步完善和扩展此方法。这些讨论为后续研究指明了方向。