本文标题为《SpatialPPI: Three-dimensional Space Protein-Protein Interaction Prediction with AlphaFold Multimer》,作者为Wenxing Hu和Masahito Ohue,隶属于东京工业大学计算学院计算机科学系。本研究发表于《Computational and Structural Biotechnology Journal》2024年第23期。该研究主要探讨利用AlphaFold Multimer对蛋白-蛋白相互作用(Protein-Protein Interaction, PPI)进行三维空间预测的新方法。
蛋白质作为生命活动的核心物质之一,负责催化化学反应、运输分子以及构建细胞与组织结构。蛋白质之间相互作用(PPI)的预测不仅为生物学过程的基本机制提供了重要线索,还可助力疾病治疗新途径的开发。
然而,目前蛋白质相互作用预测仍然具有较高的复杂性。主流方法主要包括两种:基于序列的方法(Sequence-based Methods)和基于结构的方法(Structure-based Methods)。序列方法通过氨基酸链推测,但由于缺乏结构细节信息,预测准确性受到限制;而结构方法依赖于实验确定的三维结构,处理新蛋白时面临数据不足问题。
近年来,AlphaFold Multimer的出现极大提升了蛋白复合物结构预测的准确率。然而,该方法对输入的蛋白序列是否能够实际发生相互作用无法区分。针对这一挑战,研究者提出了一种名为SpatialPPI的新方法,通过结合深度学习和AlphaFold Multimer预测的结构信息,对蛋白-蛋白相互作用进行高精度预测。
本研究的数据来自于BioGRID v4.4.206数据库和Negatome 2.0数据库。BioGRID提供了200多万个经过实验验证的正样本数据(蛋白质相互作用对),而Negatome包含2171对验证不发生相互作用的蛋白质负样本。由于两者之间存在一定的冲突与重叠,研究团队对数据集进行了严格的清洗和去重,最终数据集包含1200对蛋白质(600个正样本和600个负样本),涉及375个人类蛋白质。同时,通过去除序列之间的高相似性,防止因过拟合导致模型表现失真。
研究团队使用AlphaFold Multimer版本2.3.1对1200对蛋白质进行三维结构预测,每对蛋白生成5个不同的模型,共6000个蛋白数据库格式(PDB)文件。这些结构预测基于多序列比对和优化算法,能够从输入的蛋白氨基酸序列中推测其复合物结构,并用以提升下游分析的空间信息质量。
为了将蛋白质的三维空间信息引入神经网络,研究团队将PDB文件中的原子坐标数据转化为三维张量。例如,通过如下步骤完成特征提取与格式转换: - 低置信区域的去除:剔除AlphaFold预测中置信度低的区域。 - 接触界面的选择:确定与两条链接触的残基,并将这些界面的几何中心作为三维张量的核心区域。 - 编码方法探索:研究团队设计并比较了三种张量编码方法: - One-hot编码,用以直接标记空间中每个原子的存在与否; - 体积编码(Volume Encoding),通过计算每个体素与原子的体积交集,精确表示空间分布; - 距离编码(Distance Encoding),根据单元格与原子核的欧几里得距离进行表达,特别适用于解决空间稀疏性问题。同时,将阈值范围设定为12Å,以尽量捕捉潜在接触区域。
研究团队分别基于DenseNet3D和ResNet3D构建了深度学习模型: - DenseNet3D使用密集连接技术进行特征传递,使每个卷积的输出直接连接到所有后续层; - ResNet3D采用跳跃连接缓解梯度消失问题。 网络的核心由四个卷积块组成,每个卷积后接Dropout层(用以防止过拟合)。网络输出采用softmax激活函数表示为二分类概率。
此外,数据增强技术包括24种旋转方式和随机位移范围(±6Å),以提升模型鲁棒性。整个训练在5折交叉验证框架下完成,训练“正”和“负”样本的五种AlphaFold预测模型,而仅使用第一种预测模型进行测试。
通过5折交叉验证,研究展示了不同网络架构与编码方法的性能: - DenseNet3D结合距离编码表现最佳,其在准确率(Acc, 0.818)、曲线下面积(AUC, 0.892)、精确率(Precision, 0.832)和召回率(Recall, 0.796)上全面优于其他方法。 - 对比表明距离编码的“填充率”(Fill Rate)达到95%,远高于One-hot及体积编码方法,从而有效缓解稀疏性问题。
SpatialPPI的预测结果与四种主流PPI预测工具进行对比,包括D-Script(两种模型)、DeepTrio、Peppi和SpeedPPI。结果显示SpatialPPI在AUC、Acc和Recall指标上均优于已有方法,例如在Recall上从Peppi的0.402显著提升至0.796。
为了验证模型的泛化性能,在DeepTrio研究中使用的一组未重叠数据(571对正样本和相应的负样本对)上重复实验。SpatialPPI在AUC(0.920)以及Acc(0.835)上继续保持领先。这表明SpatialPPI不仅可以适用于本研究数据集,也适合其他独立数据源。
AlphaFold Multimer在正负样本对中的平均结构预测结果没有显著差异,唯一显著区分点为界面区域的平均PLDDT评分。然而,这一评分分布之间存在交叉,因此无法单靠AlphaFold Multimer直接推断PPI。通过SpatialPPI能够进一步利用AlphaFold生成的二维或三维空间结构优化信号识别。
本研究通过AlphaFold Multimer生成的蛋白质结构预测模型,结合深度学习框架,开发了用于PPI预测的高效工具SpatialPPI。研究提出并实现了三维距离编码的创新表达方式,解决了稀疏性问题,在主要性能指标上显著优于现有工具。
研究由多个日本科学资助项目支持,包括JST FOREST、JST ACT-X等。实验运算依托东京工业大学超级计算机Tsubame 3.0完成。