分享自:

MS-DIAL 4中的脂质组图谱

期刊:Nature BiotechnologyDOI:10.1038/s41587-020-0531-2

类型a:学术研究报告

作者及研究机构
本研究由来自RIKEN综合医学科学中心的Hiroshi Tsugawa和Makoto Arita领衔的跨国团队完成,合作机构包括日本RIKEN可持续资源科学中心、大阪大学信息科学与技术研究生院、美国耶鲁大学公共卫生学院、捷克科学院生理学研究所等18家科研单位,研究成果发表于*Nature Biotechnology*期刊。

学术背景
脂质组学(lipidomics)是代谢组学的重要分支,研究生物体内脂质的结构、功能及代谢网络。脂质作为细胞膜组分、信号分子和能量载体,其结构多样性(超过40,000种化合物)对生物功能具有决定性影响。然而,现有脂质分析软件存在覆盖度低、标准化不足等问题,尤其在保留时间(retention time, RT)、碰撞截面积(collision cross-section, CCS)和串联质谱(MS/MS)信息整合方面缺乏系统性解决方案。

MS-DIAL 4的开发旨在建立一个全面兼容脂质组学标准倡议(Lipidomics Standards Initiative, LSI)的分析平台,通过整合117个脂质亚类的质谱裂解规律和离子淌度(ion mobility)数据,实现高可信度的脂质注释与半定量分析。

研究流程与实验方法
1. 样本与数据收集
- 研究对象:涵盖人类血浆、19种小鼠组织、4种哺乳动物培养细胞、9种藻类和3种植物,共计1,056个脂质组学样本,来自81项独立研究的LC-MS/MS和LC-IM-MS/MS数据。
- 仪器平台:使用10种不同品牌的质谱仪(如Sciex TripleTOF、Bruker timsTOF Pro等),结合多种脂质提取方法(如氯仿/甲醇单相萃取法)。

  1. 脂质注释流程

    • 初级注释:通过MS-DIAL“引导版本”基于LSI标准(Level 2和3)进行初步定量,并筛选未知MS/MS谱图。
    • 结构验证:通过标准品比对、文献挖掘和片段离子证据预测候选结构。例如,团队首次报道了一种微生物特异性脂质N-酰基甘氨酰丝氨酸(NAGlySer)的裂解规律(图1)。
    • 决策树算法:开发基于裂解规则和中性丢失特征的自动化注释算法,覆盖117个脂质亚类的177种离子化形式(补充表2)。
  2. 技术优化与数据库构建

    • 保留时间(RT)与CCS预测:利用机器学习(XGBoost算法)建立预测模型,训练集包含3,570个脂质离子的CCS值和4,303个脂质的RT值,外部验证显示95%置信区间误差分别为6.2 Ų和0.93分钟(图2d, 2g)。
    • 离子淌度数据处理:设计“离子淌度基础框架”(Ion Mobility Base Framework, IBF)格式,实现快速峰检测和谱图检索,处理速度较传统方法提升60倍(扩展数据图2)。
  3. 验证与性能评估

    • 跨平台一致性测试:在8个独立LC-MS平台上分析NIST SRM 1950人血浆样本,共注释961种脂质,其中214种脂质的平台间一致性系数(COD)<40%(图2a, 2b)。
    • 错误发现率(FDR):通过专家人工验证12,263个MS/MS谱图,确认阳性模式下RT容忍度为1分钟时FDR低至1.50%(图2e)。

主要结果
1. 数据库覆盖度
MS-DIAL 4整合了8,051种脂质的RT、CCS和MS/MS信息,其中6,570种在分子物种水平(molecular species level)完成注释,涵盖哺乳动物、植物和藻类特异性脂质(如醚脂质、鞘脂类)。

  1. 技术突破

    • 离子淌度数据支持:首次实现LC-IM-MS/MS数据的全流程分析(包括峰检测、解卷积和mzTab-M格式导出),可分离结构异构体(如图2i-l中的单半乳糖二酰甘油异构体)。
    • 新型脂质发现:鉴定出小鼠粪便中的二半乳糖基烷基酰基甘油(ether DGDG)和肾脏组织中的酰基化鞘磷脂(ASM),后者通过化学合成验证(扩展数据图7)。
  2. 生物学应用

    • 组织特异性脂质图谱:聚类分析揭示小鼠脑组织中富含磺酸酯鞘脂(sulfatide),而睾丸组织中存在大量超长链多不饱和脂肪酸(VLC-PUFA)脂质(扩展数据图5)。
    • 跨物种比较:发现藻类特异性脂质(如二酰基甘油三甲基高丝氨酸)可能存在于人类牙菌斑中,提示微生物与宿主代谢互作的新线索。

结论与价值
1. 科学意义
MS-DIAL 4首次将脂质注释标准化延伸至离子淌度维度,其决策树算法和机器学习预测模型为脂质组学数据可比性树立了新标杆。

  1. 应用前景

亮点
- 全流程解决方案:从原始数据导入到mzTab-M导出,兼容主流厂商的IM-MS数据。
- 覆盖度领先:脂质亚类数量较前代版本提升2倍,CCS库覆盖101个亚类(补充表8)。
- 低FDR保障:通过RT、CCS和MS/MS三维过滤,将注释错误率控制在%。

其他价值
研究团队公开了所有源码、质谱库和半定量数据,并通过DropMET(索引dm0022-dm0031)共享原始数据,推动脂质组学数据的开放科学实践。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com