该研究由来自中山大学的多位研究人员共同完成,包括Yongjie Deng、Yao Yao、Yanni Wang等,发表在Nature Communications期刊2024年第15卷上。
代谢组学通过研究生物系统中小分子代谢物的全面变化,在疾病生物标志物发现中发挥重要作用。液相色谱-质谱联用技术(LC-MS)因其高灵敏度、稳定性和高通量等优势,成为非靶向代谢组学研究的主要工具。
然而,传统LC-MS代谢组学面临三大主要挑战: 1. 数据处理复杂性:包含峰提取、对齐、代谢物注释和数据标准化等多个繁琐步骤; 2. 批次间变异性:跨批次或跨平台的信号漂移问题显著; 3. 未知代谢物问题:大量检测到的代谢物无法被现有数据库识别。
针对这些问题,研究团队开发了名为DeepMSProfiler的深度学习新方法,旨在: - 建立端到端的质谱数据分析流程 - 克服批次效应和未知代谢物信号的影响 - 提供可解释的疾病相关代谢网络分析 - 提高疾病诊断的准确性和可靠性
研究收集了来自三家医院的859例人血清样本,包括: - 健康个体210例 - 良性肺结节患者323例 - 肺腺癌患者326例
样本经过严格处理: 1. 空腹血样采集后静置1小时 2. 4℃条件下以2851×g离心10分钟分离血清 3. -80℃冷冻保存直到代谢物提取 4. 采用甲基叔丁基醚/甲醇/水联合提取法提取代谢物
使用超高效液相色谱-高分辨质谱(UPLC-HRMS)平台进行分析: - 色谱柱:ACQUITY BEH Amide (2.1×100mm, 1.7μm) - 质谱仪:Q-Exactive Orbitrap质谱仪 - 分析模式:正离子和负离子模式 - 参数设置:扫描范围70-1050m/z,分辨率70000
研究开发了基于集成学习策略的端到端深度学习模型框架,包含三个主要部分:
在独立测试数据集上,DeepMSProfiler表现出卓越性能: - AUC达0.99,显著优于传统方法(SVM、RF等) - 准确率95%(95%CI,94%-97%) - 精确度96%(95%CI,94%-97%) - 召回率95%(95%CI,94%-96%) - F1值98%(95%CI,97%-98%)
特别值得注意的是,在早期(I期)肺腺癌检测中,模型达到96.1%的准确率。
研究系统评估了模型处理批次效应的能力: 1. 发现批次间主要变异形式为保留时间(rt)偏移 2. 传统参考物质(Ref-M)方法处理后仍能观察到不同医院的聚类 3. 深度学习模型通过隐藏层逐步消除批次相关信息 4. 随着网络层次深入,与批次标签相关性降低,与分类标签相关性增强
定量分析显示,模型通过监督学习,在网络前向传播过程中逐步排除批次相关信号,保留类别相关信息。
代谢组学数据分析面临一个重要挑战: 1. 所有检测特征中,仅16.5%能被HMDB和KEGG数据库识别 2. 83.5%的特征为未知代谢物 3. 排除未知代谢物会显著降低预测准确率
DeepMSProfiler通过: 1. 直接处理原始质谱信号 2. 无需依赖代谢物注释 3. 成功识别疾病相关的未知代谢特征
研究采用了改进的随机输入采样解释(RISE)方法进行特征贡献计算: 1. 发现单模型中存在的”背景类别”现象 2. 集成策略有效缓解了这一现象 3. 生成高分辨率贡献热图,精确定位关键代谢信号
进一步分析发现了: - 82个蛋白质和121个代谢物组成的肺癌相关网络 - 其中9个代谢物通过二级质谱鉴定 - 其余112个为通过相关性发现的新代谢物
通路富集分析显示: - 健康个体与良性结节代谢特征相似 - 肺癌组表现出独特代谢特征 - 主要涉及色氨酸代谢、丝氨酸代谢等通路
端到端分析框架:直接从原始质谱信号到疾病诊断和机制发现,避免了传统处理流程中的信息损失。
批次效应自动消除:通过深度神经网络的层次传递自动消除批次效应,效果优于传统校正方法。
未知代谢物的利用:能够充分利用常规分析中无法识别的代谢物信息,大幅提高了分析的覆盖范围。
可解释性创新:结合扰动方法和网络分析,使深度学习模型的预测结果具有生物学可解释性。
广泛适用性验证:
该研究将深度学习与代谢组学完美结合,为疾病诊断和机制研究开辟了新途径。DeepMSProfiler不仅提供了高精度的诊断工具,其揭示的代谢网络和通路更为理解疾病机制和治疗靶点发现提供了重要线索。