分享自:

深度学习预测提升磷酸化蛋白质组学发现

期刊:Mol Cell ProteomicsDOI:10.1016/j.mcpro.2023.100707

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


DeepRescore2:基于深度学习的磷酸化肽段鉴定新方法及其在肝癌研究中的应用

作者及机构
本研究由Xinpei Yi(第一作者,现任职于上海交通大学生命科学技术学院)、Bo Wen(共同第一作者)、Shuyi Ji(复旦大学附属中山医院肝癌研究所)、Alexander B. Saltzman(贝勒医学院高级技术核心平台)、Eric J. Jaehnig、Jonathan T. Lei、Qiang Gao(复旦大学肝癌研究所)和Bing Zhang(通讯作者,贝勒医学院分子与人类遗传学系)共同完成,发表于2024年《Molecular & Cellular Proteomics》期刊第23卷第2期(DOI: 10.1016/j.mcpro.2023.100707)。


学术背景

研究领域与动机
磷酸化蛋白质组学(phosphoproteomics)是研究蛋白质翻译后修饰(PTM)的核心领域,其中磷酸化修饰(phosphorylation)调控细胞信号通路、代谢和癌症发生等关键生物学过程。然而,传统基于质谱的“鸟枪法磷酸化蛋白质组学”(shotgun phosphoproteomics)面临两大挑战:
1. 低鉴定率:磷酸化肽段(phosphopeptide)的质谱图谱解析难度高,导致鉴定灵敏度不足;
2. 磷酸化位点定位不准:因缺乏决定性碎片离子(site-determining ions),假阳性率高。

研究目标
开发一种整合深度学习预测的计算流程DeepRescore2,通过改进保留时间(retention time, RT)和碎片离子强度(fragment ion intensity)预测,提升磷酸化肽段鉴定和位点定位的准确性,并应用于肝癌生物标志物发现。


研究流程与方法

1. DeepRescore2工作流程设计

研究分为四个核心步骤:
- 步骤1:深度学习模型训练
- 使用AutoRT(基于LSTM的保留时间预测模型)和pDeep3(碎片离子强度预测模型),通过实验特异性数据微调(fine-tuning)预训练模型。
- 训练集:从U2OS骨肉瘤细胞系和CPTAC子宫内膜癌(UCEC)数据集中筛选高置信度磷酸化肽段(PSM FDR <1%,位点定位概率>0.75)。

  • 步骤2:磷酸化位点定位优化

    • 结合PhosphoRS概率评分、预测谱相似性(entropy distance算法)和保留时间差异(RT ratio方法),生成复合定位概率。
    • 创新点:首次将保留时间预测用于位点定位,弥补碎片离子信息不足的缺陷。
  • 步骤3:PSM重评分(rescoring)

    • 整合搜索引擎原生特征(如MaxQuant的PTMScore)、通用特征(如质量误差)和深度学习特征,通过Percolator(半监督SVM算法)重新计算PSM置信度。
  • 步骤4:可视化验证

    • 使用PDV工具手动验证鉴定结果,确保可靠性。

2. 基准测试与性能验证

  • 合成数据集测试

    • 使用已知磷酸化位点的合成肽库(PRIDE ID: PXD000138),对比7种方法(如PhosphoRS单独使用、结合RT/谱预测等)。
    • 结果:DeepRescore2(方法7)在1%假定位率(FLR)下,正确鉴定PSM数量比传统方法提升17.33%。
  • 真实生物数据集验证

    • U2OS细胞系:鉴定磷酸化肽段数量提升19%-32%(不同搜索引擎);
    • UCEC肿瘤样本:TMT标记数据中鉴定数量提升28%-46%。

3. 肝癌临床样本应用

  • 数据来源:国际癌症蛋白质组联盟(ICPC)的159例HBV相关肝癌(HCC)患者的配对肿瘤/癌旁组织TMT数据(PDC ID: PDC000199)。
  • 分析内容
    • 差异磷酸化位点:DeepRescore2鉴定出9,950个显著差异位点(肿瘤vs.正常),其中30%未被传统方法检出;
    • 预后关联分析:发现420个与不良预后相关的磷酸化位点(如NAV3_S1190),60%为DeepRescore2独有;
    • 激酶活性推断:通过KSEA算法(Kinase-Substrate Enrichment Analysis)预测EGFR在预后不良患者中显著激活,并通过肝癌类器官(organoid)实验验证其对阿法替尼(afatinib)的敏感性。

主要结果与逻辑链条

  1. 方法学优势

    • 在合成数据中,DeepRescore2的位点定位错误率(FLR)低至0.79%(传统方法为0.81%-1.14%);
    • 真实数据中,磷酸化肽段鉴定数量平均提升30%,且缺失值(missing values)减少,增强统计效力。
  2. 生物学发现

    • 肝癌新靶点:EGFR_Y1068磷酸化水平与阿法替尼敏感性显著负相关(r=-0.79, p=0.021),类器官实验证实高磷酸化组AUC降低至0.31(低组>0.5);
    • 剪接调控机制:鉴定出98个SR蛋白(如SRSF1)的RS结构域磷酸化位点,80%与肿瘤中SRPK1激酶活性上调相关。

结论与价值

科学意义
- 首次将深度学习预测的保留时间和碎片离子强度整合至磷酸化数据分析全流程,解决了低鉴定率和位点模糊性难题;
- 为大规模磷酸化蛋白质组学研究提供了标准化工具(代码开源:GitHub/bzhanglab/deeprescore2)。

应用价值
- 发现EGFR_Y1068可作为肝癌靶向治疗标志物,推动阿法替尼的临床转化研究;
- 揭示SRPK1-RS结构域磷酸化网络在肝癌中的调控作用,为RNA剪接异常机制提供新视角。


研究亮点

  1. 技术创新

    • 提出RT ratio和entropy distance算法,优化位点定位评分;
    • 开发自动化微调流程,适配不同质谱平台数据。
  2. 跨学科融合

    • 结合质谱技术、深度学习和临床验证,形成闭环研究范式。
  3. 数据资源

    • 公开合成与真实数据集(Zenodo: 10049730),促进方法学比较。

其他重要内容

  • 局限性:当前仅整合PhosphoRS算法,未来可扩展至AscorePro等新型定位工具;
  • 展望:计划将DeepRescore2推广至其他翻译后修饰(如乙酰化)研究。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com