分享自:

深度学习的端到端质谱数据分析方法揭示疾病特异性代谢特征

期刊:Nature CommunicationsDOI:10.1038/s41467-024-51433-3

基于深度学习的质谱数据分析方法揭示疾病特异性代谢特征研究

该研究由来自中山大学的多位研究人员共同完成,包括Yongjie Deng、Yao Yao、Yanni Wang等,发表在Nature Communications期刊2024年第15卷上。

学术背景与研究目的

代谢组学通过研究生物系统中小分子代谢物的全面变化,在疾病生物标志物发现中发挥重要作用。液相色谱-质谱联用技术(LC-MS)因其高灵敏度、稳定性和高通量等优势,成为非靶向代谢组学研究的主要工具。

然而,传统LC-MS代谢组学面临三大主要挑战: 1. 数据处理复杂性:包含峰提取、对齐、代谢物注释和数据标准化等多个繁琐步骤; 2. 批次间变异性:跨批次或跨平台的信号漂移问题显著; 3. 未知代谢物问题:大量检测到的代谢物无法被现有数据库识别。

针对这些问题,研究团队开发了名为DeepMSProfiler的深度学习新方法,旨在: - 建立端到端的质谱数据分析流程 - 克服批次效应和未知代谢物信号的影响 - 提供可解释的疾病相关代谢网络分析 - 提高疾病诊断的准确性和可靠性

研究流程与方法

样本收集与处理

研究收集了来自三家医院的859例人血清样本,包括: - 健康个体210例 - 良性肺结节患者323例 - 肺腺癌患者326例

样本经过严格处理: 1. 空腹血样采集后静置1小时 2. 4℃条件下以2851×g离心10分钟分离血清 3. -80℃冷冻保存直到代谢物提取 4. 采用甲基叔丁基醚/甲醇/水联合提取法提取代谢物

LC-MS分析

使用超高效液相色谱-高分辨质谱(UPLC-HRMS)平台进行分析: - 色谱柱:ACQUITY BEH Amide (2.1×100mm, 1.7μm) - 质谱仪:Q-Exactive Orbitrap质谱仪 - 分析模式:正离子和负离子模式 - 参数设置:扫描范围70-1050m/z,分辨率70000

DeepMSProfiler模型构建

研究开发了基于集成学习策略的端到端深度学习模型框架,包含三个主要部分:

  1. 预池化模块
  • 使用最大池化层将三维数据降为二维
  • 保持全局信号同时减少冗余
  • 采样间隔设为:rt:0.016分钟,m/z:1
  1. 特征提取模块
  • 基于卷积神经网络架构
  • 采用DenseNet121作为骨干网络
  • 包含120个卷积层和431层深度神经网络
  • 设计密集连接的卷积网络增强模型灵活性
  1. 分类模块
  • 简单的密集神经网络计算不同类别的概率
  • 集成18个子模型提高泛化能力
  • 各子模型平等参与最终预测

数据处理与分析流程

  1. 原始LC-MS数据转换为mzML格式
  2. 直接采样作为模型输入,无需预处理
  3. 将离子点映射到由rt和m/z定义的三维空间
  4. 使用最大池化卷积核进行下采样
  5. 获得1024×1024离子强度的二维矩阵

主要研究结果

模型性能评估

在独立测试数据集上,DeepMSProfiler表现出卓越性能: - AUC达0.99,显著优于传统方法(SVM、RF等) - 准确率95%(95%CI,94%-97%) - 精确度96%(95%CI,94%-97%) - 召回率95%(95%CI,94%-96%) - F1值98%(95%CI,97%-98%)

特别值得注意的是,在早期(I期)肺腺癌检测中,模型达到96.1%的准确率。

批次效应处理能力

研究系统评估了模型处理批次效应的能力: 1. 发现批次间主要变异形式为保留时间(rt)偏移 2. 传统参考物质(Ref-M)方法处理后仍能观察到不同医院的聚类 3. 深度学习模型通过隐藏层逐步消除批次相关信息 4. 随着网络层次深入,与批次标签相关性降低,与分类标签相关性增强

定量分析显示,模型通过监督学习,在网络前向传播过程中逐步排除批次相关信号,保留类别相关信息。

处理未知代谢物的能力

代谢组学数据分析面临一个重要挑战: 1. 所有检测特征中,仅16.5%能被HMDB和KEGG数据库识别 2. 83.5%的特征为未知代谢物 3. 排除未知代谢物会显著降低预测准确率

DeepMSProfiler通过: 1. 直接处理原始质谱信号 2. 无需依赖代谢物注释 3. 成功识别疾病相关的未知代谢特征

模型解释性与代谢网络

研究采用了改进的随机输入采样解释(RISE)方法进行特征贡献计算: 1. 发现单模型中存在的”背景类别”现象 2. 集成策略有效缓解了这一现象 3. 生成高分辨率贡献热图,精确定位关键代谢信号

进一步分析发现了: - 82个蛋白质和121个代谢物组成的肺癌相关网络 - 其中9个代谢物通过二级质谱鉴定 - 其余112个为通过相关性发现的新代谢物

通路富集分析显示: - 健康个体与良性结节代谢特征相似 - 肺癌组表现出独特代谢特征 - 主要涉及色氨酸代谢、丝氨酸代谢等通路

研究结论与价值

科学价值

  1. 开发了首个端到端的质谱深度学习分析框架
  2. 突破了传统代谢组学依赖预处理和数据库注释的限制
  3. 为处理复杂代谢数据提供了新方法学

应用价值

  1. 在肺癌诊断中显示出极高准确性(AUC 0.99)
  2. 特别适用于早期癌症筛查(早期肺癌准确率96.1%)
  3. 可直接揭示疾病相关的代谢-蛋白质网络
  4. 为精准医学提供了强有力的分析工具

研究亮点

  1. 端到端分析框架:直接从原始质谱信号到疾病诊断和机制发现,避免了传统处理流程中的信息损失。

  2. 批次效应自动消除:通过深度神经网络的层次传递自动消除批次效应,效果优于传统校正方法。

  3. 未知代谢物的利用:能够充分利用常规分析中无法识别的代谢物信息,大幅提高了分析的覆盖范围。

  4. 可解释性创新:结合扰动方法和网络分析,使深度学习模型的预测结果具有生物学可解释性。

  5. 广泛适用性验证

  • 在结直肠癌数据集上取得97.9%准确率
  • 分析23种癌症的928个细胞系脂质代谢组
  • 发现14种代谢物和3种蛋白质在多种癌症中共同出现

该研究将深度学习与代谢组学完美结合,为疾病诊断和机制研究开辟了新途径。DeepMSProfiler不仅提供了高精度的诊断工具,其揭示的代谢网络和通路更为理解疾病机制和治疗靶点发现提供了重要线索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com