蛋白质-蛋白质互作预测的新进展:HSSPPI模型从分层与空间-序列双视角全面解析蛋白互作位点

背景介绍:揭示蛋白互作预测的瓶颈与机遇

蛋白质(Protein)作为生命活动的核心分子,几乎参与了所有生物学过程与细胞功能,包括基因表达、RNA转录、DNA合成以及免疫反应等。蛋白分子之间的相互作用(Protein-Protein Interactions, PPI)以及特定位点上的互动(Protein-Protein Interaction Sites, PPIS)决定了多样且精确的生理活动。例如,药物设计、蛋白功能注释、疾病分子机制探索、以及全局蛋白互作网络构建等,都以高质量的PPI和PPIS信息为基础。

然而,传统基于生物实验(如X射线晶体学、质谱等)对PPI位点进行检测的方法耗时高、成本昂贵,并且面临样品复杂性高和可扩展性不足的问题。随着蛋白数据库的快速扩充及疾病防治需求的日益迫切,基于计算的PPI预测方法(computational methods for PPIS prediction)蓬勃发展。当前这些方法主要分为两大类:基于序列(Sequence-based)和基于结构(Structure-based),大都依赖于机器学习或深度学习模型来挖掘蛋白潜在的互作信息。

尽管这些方法取得了一定进展,但仍然存在突出局限:(1)大多数方法仅关注蛋白的单一表征形式——要么是空间构象(spatial conformation)要么是一级序列(primary sequence),未能整合蛋白的序列与空间信息,无法同时洞察邻居残基的时序与空间邻近性,从而限制了预测性能;(2)许多现有模型忽视了蛋白分子的天然分层结构(hierarchical structure),例如,一个蛋白的残基(Residue)由原子(Atom)构成,而功能性的结合往往还需要关注底层原子级别的信息。传统方法更多从残基层面提取特征,较少精准捕捉氨基酸侧链等复杂原子级信息,导致表达能力有限。

由此,深度整合蛋白质的分层结构与空间-序列双重信息,成为提升PPIS预测的关键挑战。

论文来源与作者介绍

本研究论文题为“hssppi: hierarchical and spatial-sequential modeling for ppis prediction”,由Yuguang Li、Zhen Tian、Xiaofei Nan、Shoutao Zhang、Qinglei Zhou及Shuai Lu等人共同完成。作者分别来自郑州大学计算机与人工智能学院、长三角电子科技大学衢州研究院、郑州大学生命科学学院、中原智能医疗实验室与郑州国家超级计算中心等多个科研单位。论文于2025年发表于国际知名生物信息学期刊《Briefings in Bioinformatics》,并由Oxford University Press出版。

研究工作流程与创新技术解析

整体研究架构

本研究针对蛋白-蛋白互作位点的精确预测需求,提出了一种全新的深度学习网络架构——HSSPPI(Hierarchical and Spatial-Sequential Protein-Protein Interaction predictor)。这一模型首次将蛋白表征为完整的分层图结构(hierarchical graph),并联合建模其空间布局与序列排列,同时创新性地引入空间-序列融合(spatial-sequential,简称s-s)模块,实现多维度、多尺度、深层次的蛋白内在信息整合。

HSSPPI整体架构包括四大模块:蛋白分层图生成、原子层级特征提取、残基层级特征提取与最终特征分类判别。

步骤一:蛋白分层图生成

  • 分层表示:作者将蛋白质构建为“残基-原子”双层级嵌套结构。蛋白分子的宏观节点为残基,每个残基节点又进一步由原子层级图(atom-level graph)细化。
  • 连接关系:采用原子或残基间距离阈值作为连接边界,通过测量重要原子(heavy atom)间的欧氏距离判断边是否存在。
  • 参数探索:原子层边以1.3-2.5Å为候选阈值,残基层边以4.0-7.0Å为阈值范围,为后续融合实验奠定基础。

步骤二:原子层级特征提取

  • 特征编码:采用One-hot对所有37种原子类型编码,得到原子特征矩阵。
  • 空间-序列块(s-s block):引入了关键的s-s块,分别由图卷积网络(GCN, Graph Convolutional Network)和双向门控递归单元(Bi-GRU,Bidirectional Gated Recurrent Unit)层级联,聚合原子的空间邻居及前后序列信息。
    • GCN捕捉原子的空间相关性及局邻拓扑信息;
    • Bi-GRU模拟蛋白序列固有语义和局部语法——前向和反向信息流。

步骤三:残基层级特征提取

  • 特征获取:调用预训练蛋白语言模型ProtT5,抽取长度为1024的高维残基特征嵌入向量。
  • 邻接矩阵构建:通过残基之间的平均原子距离建立邻接矩阵。
  • 空间-序列融合与分层信息结合:同原子层级一样,串联GCN与Bi-GRU,同时设计特征融合块(Feature-Fusion block, f-f block)将原子级与残基级特征按隶属关系映射拼接,多层次信息充分耦合。

步骤四:特征分类判别

  • 跳跃连接与双全连接层:最终输出的融合特征通过跳跃连接与两层全连接网络进行分类,实现每个残基的互作位点预测。
  • 激活与损失函数:采用ReLU激活函数与加权交叉熵损失,优化识别精度。

算法实现

  • 软硬件环境:基于PyTorch实现,使用NVIDIA RTX4090单卡训练,单轮epoch时长约20-30分钟。
  • 超参搜索:学习率、dropout比率、距离阈值通过交叉验证等策略综合优化。
  • 数据集设置:在两个权威PPIS任务——DeepPPISP task与GraphPPIS task的多个公共基准数据集上展开大规模对比实验,样本总数千级,每个任务细分训练集、测试集、辅助独立验证集等。

结果与发现

DeepPPISP任务对比

  • 方法对照组:与Sppider、Scriber、DeepPPISP、Attention-CNN、Delphi、HN-PPIS、EGRET、EnsemPPIS等八种主流模型展开同场对决。
  • 精度优势:HSSPPI在不平衡数据场景下表现尤为突出,F1值、MCC(Matthews相关系数)、AUPRC(Average Precision)平均提升幅度均明显高于基线模型,F1值相较最佳对照提升50.23%,MCC提升15.16%,AUPRC提升7.16%。
  • 泛化表现:不止于整体高分,精度(Precision)指标对比EnsemPPIS提升了68%,召回率(Recall)提升30.83%,表明模型能极大降低假阳性且不丢失强相关位点。

GraphPPIS任务对比

  • 扩展对比组:除上述方法外,还涵盖PSIVER、PRONA2020、DLPred、MaSIF-Site、GraphPPIS、RGN、Prob-Site、AGAT-PPIS、DeepProSite、GHGPR-PPIS、GACT-PPIS等共11类方法。
  • 多指标领先:无论是与结构型模型还是序列型模型对比,HSSPPI在Precision、Recall和F1三大关键指标上均实现新纪录,尤其是与GACT-PPIS相比,三者分别提升9.9%、1.1%和7%。
  • 小结:尽管在Acc等部分指标上不及某些算法,但在AUPRC、AUC和F1这类不均衡受敏感性强的重要评判标准下表现最佳,符合后AlphaFold时代的趋势和实际需求。

泛化与鲁棒性

  • 独立测试:在Test287、TestB25以及TestUB25三组独立测试集中,HSSPPI均取得F1等核心指标排名第一或显著提升,体现较强适应性和泛化能力,且对蛋白构象变化敏感。

消融实验与模型选择

  • 分层消融对比:仅用原子图或仅用残基图都不如二者融合效果,证明多层级特征融合是准确预测之本;融合次数过多则出现过度平滑现象,适度融合(两次)最佳。
  • 阈值优化实验:组合实验发现,当残基距离阈值为5.5Å,原子距离阈值为2.3Å时,AUROC和AUPRC均达最优,反映空间邻接边界策略的有效性。
  • GCN架构对比:分别测试GraphConv、SageConv、ChebConv、GATConv、GATV2Conv、GCNConv等多种图神经网络,最终选用SageConv作为核心卷积算子,兼顾精度与计算效率。

可视化与个案分析

  • 案例验证:以PDB编号1B6C_A的蛋白结构为例,实际互动位点标注与HSSPPI预测结果的吻合度高于对照方法,在蛋白分子特殊构象旋转后,依然精准定位关键结合位点,MCC值相较EnsemPPIS提升15.5%。

研究结论与价值

HSSPPI模型在蛋白-蛋白互作位点预测领域成功突破现有方法瓶颈,达成以下科学与实际价值:

  • 科学贡献
    • 首次将蛋白描述为分层图结构,系统融合原子级与残基级信息,提升蛋白表征表达能力。
    • 创新性地设计空间-序列联合提取模块,使时序邻里与空间邻里信息并行聚合,充分揭示蛋白结构—功能关联。
    • 支持大规模数据并行训练,泛化性强,适合复杂不平衡任务场景。
  • 应用意义
    • 对新药发现、蛋白功能注释及疾病分子机制解析提供了精度更高、解释性更强的解法。
    • 模型“即插即用”,面向AlphaFold-Multimer、RoseTTAFold All-Atom等最新结构预测趋势具备高度的兼容与衔接能力。
    • 模型代码开源,提升了业内可复现性与后续扩展空间。
  • 方法亮点与特色问题
    • 独特的Hierarchical Graph结构与Feature Fusion策略,是蛋白结构信息整合与跨尺度建模的典范;
    • S-S Block串联GCN与Bi-GRU,在蛋白结构建模中首次实现空间与序列同时面向神经网络处理;
    • 多数据集、多场景、多架构细致对比,消融分析扎实严谨,结论高度可信。

其它有价值信息

  • 基金支持:研究获得国家自然科学基金、河南省自然科学基金及相关科技重大项目支持。
  • 代码开放:HSSPPI项目代码已于GitHub托管,便于行业和学界共享使用。
  • 展望:未来计划进一步将“互作伙伴”特征纳入特征提取环节,挑战蛋白-蛋白复合体预测的更高精度极限。

结语

本项研究深刻洞察蛋白分子的本质属性与生物信息挖掘瓶颈,融合最新深度学习与结构生物学理念,为蛋白-蛋白互作预测建立起更高准确度、更强泛化能力的新型方法学体系,是蛋白质组学智能分析方向的又一标志性突破,也为后续相关领域的智能算法研发提供了宝贵的框架范本。