三维空间蛋白质-蛋白质相互作用预测方法：基于AlphaFold Multimer的应用与性能分析

分享自：
三维空间蛋白质-蛋白质相互作用预测方法：基于AlphaFold Multimer的应用与性能分析

计算机科学
人工智能
生物物理及生物化学
信息科学
生命科学
期刊:computational and structural biotechnology journalDOI:https://doi.org/10.1016/j.csbj.2024.03.009
【点击此处】阅读全文、收藏及针对性提问
学术报告研究概况本文标题为《SpatialPPI: Three-dimensional Space Protein-Protein Interaction Prediction with AlphaFold Multimer》，作者为Wenxing Hu和Masahito Ohue，隶属于东京工业大学计算学院计算机科学系。本研究发表于《Computational and Structural Biotechnology Journal》2024年第23期。该研究主要探讨利用AlphaFold Multimer对蛋白-蛋白相互作用（Protein-Protein Interaction, PPI）进行三维空间预测的新方法。
学术背景蛋白质作为生命活动的核心物质之一，负责催化化学反应、运输分子以及构建细胞与组织结构。蛋白质之间相互作用（PPI）的预测不仅为生物学过程的基本机制提供了重要线索，还可助力疾病治疗新途径的开发。
然而，目前蛋白质相互作用预测仍然具有较高的复杂性。主流方法主要包括两种：基于序列的方法（Sequence-based Methods）和基于结构的方法（Structure-based Methods）。序列方法通过氨基酸链推测，但由于缺乏结构细节信息，预测准确性受到限制；而结构方法依赖于实验确定的三维结构，处理新蛋白时面临数据不足问题。
近年来，AlphaFold Multimer的出现极大提升了蛋白复合物结构预测的准确率。然而，该方法对输入的蛋白序列是否能够实际发生相互作用无法区分。针对这一挑战，研究者提出了一种名为SpatialPPI的新方法，通过结合深度学习和AlphaFold Multimer预测的结构信息，对蛋白-蛋白相互作用进行高精度预测。
研究流程与方法数据集构建本研究的数据来自于BioGRID v4.4.206数据库和Negatome 2.0数据库。BioGRID提供了200多万个经过实验验证的正样本数据（蛋白质相互作用对），而Negatome包含2171对验证不发生相互作用的蛋白质负样本。由于两者之间存在一定的冲突与重叠，研究团队对数据集进行了严格的清洗和去重，最终数据集包含1200对蛋白质（600个正样本和600个负样本），涉及375个人类蛋白质。同时，通过去除序列之间的高相似性，防止因过拟合导致模型表现失真。
蛋白质结构预测研究团队使用AlphaFold Multimer版本2.3.1对1200对蛋白质进行三维结构预测，每对蛋白生成5个不同的模型，共6000个蛋白数据库格式（PDB）文件。这些结构预测基于多序列比对和优化算法，能够从输入的蛋白氨基酸序列中推测其复合物结构，并用以提升下游分析的空间信息质量。
三维空间张量的转化（3D Rendering）为了将蛋白质的三维空间信息引入神经网络，研究团队将PDB文件中的原子坐标数据转化为三维张量。例如，通过如下步骤完成特征提取与格式转换： - 低置信区域的去除：剔除AlphaFold预测中置信度低的区域。 - 接触界面的选择：确定与两条链接触的残基，并将这些界面的几何中心作为三维张量的核心区域。 - 编码方法探索：研究团队设计并比较了三种张量编码方法： - One-hot编码，用以直接标记空间中每个原子的存在与否； - 体积编码（Volume Encoding），通过计算每个体素与原子的体积交集，精确表示空间分布； - 距离编码（Distance Encoding），根据单元格与原子核的欧几里得距离进行表达，特别适用于解决空间稀疏性问题。同时，将阈值范围设定为12Å，以尽量捕捉潜在接触区域。
神经网络架构设计研究团队分别基于DenseNet3D和ResNet3D构建了深度学习模型： - DenseNet3D使用密集连接技术进行特征传递，使每个卷积的输出直接连接到所有后续层； - ResNet3D采用跳跃连接缓解梯度消失问题。 网络的核心由四个卷积块组成，每个卷积后接Dropout层（用以防止过拟合）。网络输出采用softmax激活函数表示为二分类概率。
此外，数据增强技术包括24种旋转方式和随机位移范围（±6Å），以提升模型鲁棒性。整个训练在5折交叉验证框架下完成，训练“正”和“负”样本的五种AlphaFold预测模型，而仅使用第一种预测模型进行测试。
主要研究结果模型性能评估通过5折交叉验证，研究展示了不同网络架构与编码方法的性能： - DenseNet3D结合距离编码表现最佳，其在准确率（Acc, 0.818）、曲线下面积（AUC, 0.892）、精确率（Precision, 0.832）和召回率（Recall, 0.796）上全面优于其他方法。 - 对比表明距离编码的“填充率”（Fill Rate）达到95%，远高于One-hot及体积编码方法，从而有效缓解稀疏性问题。
与现有方法对比SpatialPPI的预测结果与四种主流PPI预测工具进行对比，包括D-Script（两种模型）、DeepTrio、Peppi和SpeedPPI。结果显示SpatialPPI在AUC、Acc和Recall指标上均优于已有方法，例如在Recall上从Peppi的0.402显著提升至0.796。
种群外数据验证为了验证模型的泛化性能，在DeepTrio研究中使用的一组未重叠数据（571对正样本和相应的负样本对）上重复实验。SpatialPPI在AUC（0.920）以及Acc（0.835）上继续保持领先。这表明SpatialPPI不仅可以适用于本研究数据集，也适合其他独立数据源。
AlphaFold Multimer预测质量分析AlphaFold Multimer在正负样本对中的平均结构预测结果没有显著差异，唯一显著区分点为界面区域的平均PLDDT评分。然而，这一评分分布之间存在交叉，因此无法单靠AlphaFold Multimer直接推断PPI。通过SpatialPPI能够进一步利用AlphaFold生成的二维或三维空间结构优化信号识别。
研究结论与价值本研究通过AlphaFold Multimer生成的蛋白质结构预测模型，结合深度学习框架，开发了用于PPI预测的高效工具SpatialPPI。研究提出并实现了三维距离编码的创新表达方式，解决了稀疏性问题，在主要性能指标上显著优于现有工具。
科学价值：推进了基于蛋白质结构的PPI预测研究；对进一步理解细胞生物过程与药物研发具有重要意义；
应用价值：可用于疾病新疗法开发、药物靶点发现，并作为验证AlphaFold Multimer正确性的分析尺度。
研究亮点提出了基于距离编码的三维张量表示方法，有效解决了空间结构数据稀疏问题。
提供了跨不同数据集的验证以及与现有方法的全面对比分析。
结合AlphaFold Multimer高置信预测模型，使PPI预测可应用于未知蛋白质序列。
致谢与资助研究由多个日本科学资助项目支持，包括JST FOREST、JST ACT-X等。实验运算依托东京工业大学超级计算机Tsubame 3.0完成。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问