基于深度学习的蛋白质功能预测新方法DPGOK:融合基因本体知识与蛋白质特征
一、 研究团队与发表信息
本研究由来自中国中南大学计算机学院、生物信息学湖南省重点实验室以及湖南省生物医药智能计算工程技术研究中心的杨秋荣、王文康、范伟、郑瑞庆和李敏(通讯作者,IEEE会员)共同完成,合作者还包括英国牛津大学纳菲尔德妇女与生殖健康系的范伟。该研究已发表于《IEEE Journal of Biomedical and Health Informatics》期刊,并已在线发布(DOI: 10.1109/JBHI.2025.3622996)。论文标题为“DPGOK: A Deep Learning-Based Method for Protein Function Prediction by Fusing GO Knowledge with Protein Features”。
二、 学术背景与研究目标
本研究属于计算生物学与生物信息学领域,具体聚焦于蛋白质功能预测这一关键问题。蛋白质是生命活动的主要执行者,其功能的精确解析对于理解疾病机制和发现潜在药物靶点至关重要。然而,传统的体内外实验方法耗时耗力且成本高昂。随着测序技术的飞速发展,已知蛋白质序列的数量呈指数级增长,但通过实验验证功能的蛋白质比例极低(截至2025年1月,UniProt中人工标注功能的蛋白质不足已知序列的0.2%),这催生了对高效、准确的计算预测方法的迫切需求。
蛋白质功能通常使用基因本体(Gene Ontology, GO)的术语进行描述。GO是一个结构化的、标准化的生物学术语系统,包含分子功能(Molecular Function, MF)、生物过程(Biological Process, BP)和细胞组分(Cellular Component, CC)三个独立的子本体。GO术语之间通过“is-a”、“part-of”、“regulates”等多种关系构成一个有向无环图,蕴含了丰富的层次和语义信息。近年来,一些深度学习方法尝试整合GO知识与蛋白质序列特征进行功能预测,但它们通常依赖于从静态GO结构中提取的统一GO表示,忽略了不同GO关系类型的贡献,也未能考虑GO表示应针对不同蛋白质进行定制,以反映蛋白质特定的功能相关性。为了克服这些局限性,本研究旨在开发一种名为DPGOK的新型深度学习方法,其核心目标是生成蛋白质感知的GO表示,并将其与蛋白质特征融合,以实现更精准的蛋白质功能预测。
三、 详细研究流程与方法
DPGOK是一个深度学习框架,旨在通过融合蛋白质感知的GO表示与蛋白质序列特征来预测蛋白质功能。其整体架构包含三个核心模块:蛋白质特征提取、蛋白质感知GO嵌入学习和联合预测。研究流程主要包括数据准备、模型构建、训练与评估。
1. 数据准备: 研究团队从UniProtKB/Swiss-Prot数据库(2024年5月、2023年1月和2022年1月版本)下载数据集。遵循CAFA(Critical Assessment of Functional Annotation)挑战赛的标准,仅保留具有实验验证注释(证据代码为EXP, IDA等)的蛋白质序列。数据集按发布时间划分:2022年1月之前的数据作为训练集,2022年1月至2023年1月间的数据作为验证集,2023年1月至2024年5月间的数据作为测试集。同时,使用了2024年9月发布的GO本体。模型针对MF、BP、CC三个子本体分别进行训练和验证。数据统计显示,训练集蛋白质序列数量分别为MFO 33,339条、BPO 47,140条、CCO 41,539条;测试集分别为702条、1312条、1005条;涉及的GO术语总数分别为6091个、18832个、2604个。
2. 模型构建与工作流程: a. 蛋白质特征提取: 使用预训练的蛋白质语言模型ESM2(esm2-t33-650m-ur50d)从蛋白质序列中提取残基级嵌入表示,然后通过均值池化获得蛋白质级别的初始表示(维度2560)。该表示随后输入一个三层多层感知机(MLP)块(包含两个带ReLU激活和Dropout的线性层),最终生成128维的蛋白质特征向量(pf)。
b. 蛋白质感知GO嵌入学习: 这是DPGOK的创新核心,分为三个阶段: * 构建多关系GO子图: 将每个GO子本体视为独立的有向无环图(DAG),节点是GO术语。根据GO中定义的关系类型(如CCO包含“is-a”和“part-of”;MFO额外包含“positively regulates”;BPO额外包含“positively regulates”和“negatively regulates”),分别构建多个关系特定的子图。研究采用了关系传播策略,例如,若GO术语A是B的子类,B是C的子类,则在A和C之间也建立“is-a”边。 * 生成统一GO嵌入: 对每个关系特定的GO子图,使用一个两层的图卷积网络(GCN)来学习该关系下的GO术语嵌入表示。然后,通过一个线性注意力机制,将所有关系特定的GO嵌入动态聚合,生成一个统一的、与蛋白质无关的GO嵌入表示(g)。 * 生成蛋白质感知GO嵌入: 将蛋白质序列特征输入另一个三层MLP块(最终层使用Sigmoid激活),学习得到一组GO特定的注意力权重(wt)。该权重向量反映了目标蛋白质对不同GO术语的功能相关性。将权重wt与统一GO嵌入g进行元素级相乘,最终得到蛋白质感知的GO嵌入(gp)。该嵌入融合了GO的语义结构信息和蛋白质的特定功能倾向。
c. 蛋白质-GO特征融合与分类: 蛋白质感知GO嵌入gp经过两个全连接层处理,生成一个贡献嵌入(c),用于捕捉蛋白质特征对每个GO术语的相对贡献。接着,将蛋白质特征pf与贡献嵌入c进行元素级乘积,并通过残差连接与pf相加,得到联合的蛋白质-GO嵌入(u)。最后,u通过一个两层的MLP(带LeakyReLU和Sigmoid激活)输出最终的GO术语预测概率。
d. 知识图谱约束与损失函数: 为了确保学习到的GO表示在语义和结构上保持一致,DPGOK引入了知识图谱损失(KGLoss)。该损失将GO关系图中的(头实体,关系,尾实体)三元组作为约束,鼓励在嵌入空间中,头实体嵌入加上关系向量后与尾实体嵌入的余弦相似度接近1。总损失函数由KGLoss和二元交叉熵损失(BCELoss)共同构成。
e. 集成模型DPGOK+: 为了进一步提升模型稳定性并利用同源信息,研究还提出了一个集成变体DPGOK+。它通过加权融合DPGOK模型(取最后五个训练周期的平均预测)和基于BLAST的同源序列检索(BlastKNN)方法的预测结果,得到最终预测。权重系数α在验证集上微调确定(MF和BP为0.6,CC为0.8)。
3. 实验设置与评估指标: 模型使用AdamW优化器进行训练,在单个Tesla V100 GPU上运行。评估采用了四个在蛋白质功能预测领域广泛认可的指标:Fmax(蛋白质中心的最大F1分数)、AUPR(精确率-召回率曲线下面积)、IC-AUPR(考虑GO术语信息含量的加权AUPR)和DP-AUPR(同时考虑信息含量和本体深度的加权AUPR)。这些指标能够全面评估模型在平衡精确率与召回率、处理类别不平衡以及预测信息量更大、更深层GO术语方面的能力。
四、 主要研究结果
1. 整体性能对比: 研究将DPGOK及DPGOK+与多种代表性方法进行了比较,包括基于模板的方法BlastKNN,以及深度学习方法TALE、DeepGOZero、ATGO和DeepGO-SE。同时,也与集成方法TALE+和ATGO+进行了对比。在所有三个GO领域(MF、BP、CC)的测试集上,DPGOK在Fmax和AUPR指标上均一致性地优于所有非集成方法。例如,与当时性能次优的DeepGO-SE相比,DPGOK在MF、BP、CC上的Fmax分别提升了5.4%、3.8%和4.9%,AUPR分别提升了9.5%、3.2%和12.3%。集成模型DPGOK+的性能得到进一步小幅提升,且在所有评估指标上均优于其他集成方法。值得注意的是,即使不依赖同源比对,单独的DPGOK模型在MF和CC上的表现也超过了所有基线方法(包括集成方法),证明了其独立预测的有效性。
2. 泛化能力分析: 研究深入评估了DPGOK对罕见GO术语(在训练集中出现频率低)、深层GO术语(在GO层次结构中深度大)和高信息量(IC)GO术语的预测能力,这些术语通常更具生物学特异性但标注稀疏,是预测难点。 * 罕见GO术语:按训练频率分组后,DPGOK和DPGOK+在所有频率组别中均表现最佳或次佳。尤其在频率最低的组(freq < 50),DPGOK相比DeepGO-SE在三个领域均有显著提升(MF 4.0%, BP 5.5%, CC 5.8%),展示了优异的泛化能力。 * 深层GO术语:按GO深度分组(深度<4, 4-6, >6)。DPGOK和DPGOK+在所有深度级别上均优于现有方法。对于深度大于6的最深层术语,优势尤为明显,在BP和CC领域的中位数AUPR提升显著(例如DPGOK在BP的中位数AUPR比DeepGO-SE高42.0%),表明模型能有效捕捉复杂的层次语义结构。 * 高IC值GO术语:按IC值分组(IC<3, 3-5, >5)。DPGOK和DPGOK+在大多数情况下表现最佳。在最具挑战性的高IC组(IC>5),DPGOK的平均AUPR和AUPR中位数均显著优于DeepGO-SE(平均AUPR提升7.6%,中位数AUPR提升18.5%)。而严重依赖序列比对的方法在该组几乎失效,凸显了DPGOK在预测高度特异性和信息丰富功能方面的优势。
3. 消融实验分析: 一系列消融实验验证了DPGOK各组件的重要性: * GO图结构的作用:移除所有GO知识相关模块(仅用ESM MLP)导致性能大幅下降(如MF的AUPR下降超8%)。用随机嵌入替换统一GO嵌入(w/o GO structure)性能也显著差于完整DPGOK,证实了GO语义和层次结构编码的有效性。 * 多关系GO子图的作用:将所有GO关系视为单一类型(w/o multi rel)会导致性能平均下降约1.5%,证明构建关系特定的子图是有效且必要的。进一步移除特定关系(如“is-a”、“part-of”)的实验表明,这些核心层次关系对性能贡献最大,而调控关系(“positively/negatively regulates”)则提供辅助语义信息。 * 蛋白质感知GO嵌入的作用:移除GO特异性注意力权重,直接使用统一GO嵌入(w/o pro-aware go)进行预测,导致Fmax和AUPR平均分别下降2.58%和6.04%,强调了根据目标蛋白质定制GO表示的重要性。 * 知识图谱损失(KGLoss)的作用:移除KGLoss(w/o kgloss)后,模型性能下降,尤其在MF和CC的AUPR上下降明显(MF从0.633降至0.485,CC从0.711降至0.574)。这表明KGLoss对于约束GO表示,使其保持层次一致和语义连贯至关重要。
4. 案例研究: 以测试集中的蛋白质Cox6_schpo(细胞色素c氧化酶亚基6)为例进行分析。该蛋白在BPO中有15个注释GO术语。DPG成功预测了全部15个真实术语,且没有产生任何假阳性,F1得分达到1.0。而性能最好的基线方法DeepGO-SE仅正确预测了6个术语。DPGOK还成功预测了位于GO层次第9层的最深层术语(GO:0006123),而DeepGO-SE最深只预测到第5层。这直观展示了DPGOK在捕获更深层、更具体功能注释方面的优势。此外,对10个功能未经验证(仅通过同源性推断)的蛋白质的预测结果与同源性推断高度一致,间接支持了DPGOK预测的可靠性。
五、 研究结论与价值
本研究提出并验证了DPGOK,一种通过融合蛋白质感知的GO表示与蛋白质特征来预测蛋白质功能的深度学习方法。其核心贡献在于首次引入了蛋白质感知的GO嵌入,通过蛋白质序列信息动态调整GO术语的表示,并利用多关系图卷积网络和知识图谱损失来有效建模GO的复杂语义和层次结构。
科学价值与应用价值: 1. 方法学创新:DPGOK为蛋白质功能预测领域提供了一种新的、有效的框架,证明了将静态的GO知识动态地与特定蛋白质特征相结合的策略的优越性。 2. 预测性能提升:在多个标准评估指标和不同难度的子任务(罕见、深层、高IC值术语)上,DPGOK及DPGOK+均达到了最先进的性能,显著推进了计算预测的精度和深度。 3. 生物学意义:模型能够更准确地预测信息量更大、更具体的GO术语,这为生物学研究者提供了更精细的功能假设,可以更精准地指导后续的湿实验验证,从而加速功能发现进程,降低研究成本。 4. 可解释性:通过分析关系特定子图的注意力权重,模型在一定程度上揭示了不同GO关系类型对功能预测的贡献差异,增加了模型的可解释性。
六、 研究亮点
七、 其他有价值内容
论文还讨论了DPGOK的局限性及未来方向:1) 目前主要依赖序列特征,未来可整合预测或实验获得的蛋白质结构信息(如AlphaFold2预测的结构、二级结构、残基距离图等)以进一步提升精度;2) 当前使用相同架构的GCN处理不同GO关系,未来可采用更关系感知的图神经网络(如异质图神经网络)来更好地区分“is-a”、“part-of”、“regulates”等关系;3) 集成模型DPGOK+在引入同源预测时也引入了更多假阳性,未来需要开发更鲁棒的集成策略(如动态权重分配、建模标签间相关性)来平衡覆盖度与精确度。这些讨论为后续研究指明了有价值的改进路径。