分享自:

DeepPhospho通过计算机库生成加速DIA磷酸化蛋白质组分析

期刊:Nature CommunicationsDOI:10.1038/s41467-021-26979-1

DeepPhospho:基于深度学习的磷酸化蛋白质组学DIA数据分析新方法

作者及发表信息
本研究由上海科技大学的娄荣辉(Ronghui Lou)、刘伟珍(Weizhen Liu)等共同完成,通讯作者为上海科技大学的何旭明(Xuming He)和水文青(Wenqing Shui)。研究成果于2021年发表在*Nature Communications*期刊(DOI: 10.1038/s41467-021-26979-1)。


学术背景
磷酸化是一种关键的翻译后修饰(PTM),调控细胞信号网络的几乎所有功能。质谱(MS)技术是研究磷酸化修饰的核心工具,但传统的数据依赖性采集(DDA, Data-Dependent Acquisition)方法存在通量低、重复性差等问题。数据非依赖性采集(DIA, Data-Independent Acquisition)技术虽能提高定量准确性,但其数据分析严重依赖实验构建的谱图库(spectral library),而后者通常需通过DDA实验生成,耗时耗力且覆盖度有限。

本研究旨在开发一种基于深度学习的算法DeepPhospho,通过计算机模拟(in silico)生成磷酸化肽段的谱图库,从而绕过DDA实验,实现高效、高覆盖度的DIA磷酸化蛋白质组学分析。


研究流程与方法
1. DeepPhospho模型设计与训练
- 模型架构:采用混合神经网络设计,结合双向长短期记忆网络(Bi-LSTM)和Transformer模块。Bi-LSTM编码肽段序列的局部特征,Transformer捕获长程依赖关系,最终通过回归网络预测磷酸化肽段的碎片离子强度(fragment ion intensity)和保留时间(indexed retention time, iRT)。
- 训练数据:使用4个大规模磷酸化蛋白质组数据集(包括小鼠脑组织、人细胞系等)进行预训练,并在3个独立数据集(RPE1、U2OS细胞系)上微调模型。
- 创新点:首次引入Transformer结构预测磷酸化肽段谱图,并设计针对磷酸化修饰的特异性损失函数(如忽略磷酸基团不可存在的离子)。

  1. 谱图库构建与验证

    • 生成7类谱图库:包括实验DDA库(Lib 1)、模拟DDA库(Lib 2)、混合库(如Lib 7,结合实验DIA库与公共数据库预测库)。
    • 性能评估
      • 预测准确性:DeepPhospho预测的谱图与实验谱图的皮尔逊相关系数(PCC)中位数达0.968(RPE1 DDA数据),优于现有工具(如pDeep2、MS2PIP)。
      • 合成肽段验证:7条合成磷酸化肽段的预测谱图与真实谱图高度一致(PCC 0.79–0.97),而实验DIA库的谱图相关性较低(PCC −0.61–0.20)。
  2. DIA数据分析应用

    • 覆盖度提升:在U2OS细胞数据中,Lib 7(基于公共数据库的预测库)比传统DDA库(Lib 1)多鉴定32,511个磷酸化肽段(增加26%)。
    • 信号通路研究:在EGF刺激的RPE1细胞实验中,Lib 7发现更多调控磷酸化位点(如128个新增EGF依赖位点),并显著富集mTOR、MAPK等通路(传统库仅富集1条通路)。
    • 定量准确性:在酵母-人混合蛋白质组模型中,预测库的定量误差中位数为7.56–8.18%,与传统库相当(7.82%)。

主要结果与逻辑关联
1. 模型性能验证:DeepPhospho在多个数据集上均表现出高预测精度(图1b-c),且能纠正实验库中的错误鉴定(图2)。
2. 覆盖度与效率:基于公共数据库的预测库(如Lib 7)显著提升磷酸化位点鉴定数量(图3c),同时通过迭代搜索策略(iterative search)进一步增加可定量肽段(图4d)。
3. 生物学意义:在EGF信号研究中,新增调控位点揭示了更多激酶(如Akt1、PAK1)和通路(如PKC)的参与(图5e-f),凸显了深度覆盖的价值。


结论与价值
1. 科学价值
- 首次将Transformer架构应用于磷酸化肽段预测,解决了传统方法对肽段长度和修饰处理的局限性。
- 提出“仅需DIA数据+公共数据库”的全新工作流程,省去DDA实验,将分析时间从数月缩短至数天。
2. 应用价值
- 为临床癌症组织(如磷酸化蛋白质组特征分析)和药物靶点发现(如抗病毒药物筛选)提供高效工具。
- 开源Web服务器(http://shuilab.ihuman.shanghaitech.edu.cn/deepphospho)支持用户自定义模型训练与库生成。


研究亮点
1. 方法创新:混合神经网络设计兼顾局部与全局特征,预测精度显著优于现有工具。
2. 流程革新:首次实现完全基于DIA数据和公共数据库的磷酸化蛋白质组分析,突破传统DDA库的瓶颈。
3. 生物学发现:通过深度覆盖揭示了更多EGF信号通路的调控机制,如MEK非依赖性磷酸化事件。


其他价值
DeepPhospho的框架可扩展至其他修饰(如乙酰化)或全局蛋白质组学,为PTM研究提供通用解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com