基于预训练大语言模型的人类蛋白质必要性的全面预测与分析

基于预训练大型语言模型的人类蛋白质必要性预测与分析

学术背景

人类必需蛋白质(Human Essential Proteins, HEPs)对个体的生存和发育至关重要。然而,实验方法识别HEPs通常成本高、耗时长且劳动强度大。此外,现有的计算方法仅在细胞系水平上预测HEPs,但HEPs在活体人类、细胞系和动物模型之间差异显著。因此,开发一种能够在多个水平上全面预测HEPs的计算方法显得尤为重要。最近,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著成功,蛋白质语言模型(Protein Language Models, PLMs)也因其能够在大规模蛋白质序列上进行预训练而崭露头角。然而,PLMs是否能够显著提高蛋白质必要性预测任务的效果仍然未知。

论文来源

这篇论文由Boming Kang、Rui Fan、Chunmei Cui和Qinghua Cui共同撰写,其中Qinghua Cui为通讯作者。该团队来自北京大学基础医学院生物医学信息学系和武汉体育学院运动医学院。论文于2024年发表在《Nature Computational Science》期刊上。

研究流程

数据收集

研究团队从多个公共数据库中收集了蛋白质必要性数据,包括gnomad、ogee-mgi和Project Score数据库。这些数据分别用于训练人类水平(pic-human)、小鼠水平(pic-mouse)和细胞系水平(pic-cell)的模型。具体来说:

  • 人类水平:从gnomad数据库中获取了65,057个蛋白质序列及其对应的LOEUF(Loss of Function Observed/Expected Upper Bound Fraction)值,其中14,146个为正样本,50,911个为负样本。
  • 小鼠水平:从ogee数据库中获取了6,050个人类蛋白质序列及其对应的小鼠蛋白质必要性标签,其中443个为正样本,5,607个为负样本。
  • 细胞系水平:从Project Score数据库中获取了17,185个蛋白质序列在323个不同人类细胞系中的必要性标签。

模型架构

研究团队开发了一个名为蛋白质重要性计算器(Protein Importance Calculator, PIC)的深度学习模型,通过微调预训练的蛋白质语言模型(PLM)来实现蛋白质必要性的预测。PIC模型包括三个主要模块:

  1. 嵌入模块:使用ESM-2模型将蛋白质序列转换为固定维度的数值特征向量。
  2. 注意力模块:通过多头注意力机制捕捉蛋白质序列中不同位点的氨基酸的重要性。
  3. 预测模块:使用多层感知器(MLP)生成蛋白质序列的预测概率。

模型性能评估

研究团队采用准确率、召回率、精确率、F1得分、ROC曲线下面积(AUROC)和PR曲线下面积(AUPRC)等指标评估PIC模型的性能。结果显示,pic-human模型的AUROC最高,达到0.9132,pic-mouse模型的AUROC为0.8736,pic-cell模型的AUROC中位数为0.8579。与现有方法相比,PIC显著提高了预测性能。

蛋白质必要性评分(Protein Essential Score, PES)

研究团队根据PIC模型输出的概率值定义了蛋白质必要性评分(PES),并通过一系列生物学分析验证了其有效性。PES与蛋白质相互作用网络节点度、正常组织表达水平、癌症组织表达水平、phylop、phastcons和疾病数量等生物指标表现出显著的正相关关系。

跨水平分析

研究团队还利用PES进行了跨水平的分析,发现蛋白质必要性在人类、细胞系和小鼠水平上存在显著差异。例如,非实体瘤(如急性髓系白血病)和实体瘤(如乳腺癌)中蛋白质必要性的差异显著。此外,研究团队还发现了一些在特定组织中具有高必要性的蛋白质。

案例研究

研究团队通过乳腺癌的案例研究验证了PES在发现预后生物标志物方面的潜力。结果显示,通过PES筛选出的十种蛋白质中有八种在多个临床队列中能够有效预测乳腺癌患者的生存率。此外,研究团队还利用PES量化了617,462个人类微蛋白的必要性,并发现高必要性微蛋白主要参与细胞分裂、细胞呼吸和DNA复制等基本生物过程。

结论与意义

PIC模型通过微调预训练的蛋白质语言模型,显著提高了人类蛋白质必要性的预测性能,并提供了跨人类、细胞系和小鼠三个水平的全面预测结果。研究团队定义的PES不仅能够量化蛋白质必要性,还可以用于发现潜在的预后生物标志物和药物靶点。未来,PIC模型有望在药物发现、临床治疗和合成生物学等领域发挥重要作用。

研究亮点

  1. 预测性能显著提升:PIC模型在人类、细胞系和小鼠水平上的预测性能均优于现有方法。
  2. 跨水平分析:研究团队首次在多个水平上系统地分析了蛋白质必要性的差异。
  3. 蛋白质必要性评分(PES):PES为量化蛋白质必要性提供了一个有效的指标,并在生物学分析和临床应用验证中表现出色。
  4. 案例研究验证:通过乳腺癌的案例研究,验证了PES在发现预后生物标志物和治疗靶点方面的潜力。

其他价值信息

研究团队还开发了一个用户友好的Web服务器(http://www.cuilab.cn/pic),方便研究人员输入候选蛋白质序列并获取其在不同水平上的必要性预测结果。该服务器基于Python 3、Flask和NumPy构建,提供了简便的操作界面和结果下载功能。