分享自:

通过冷冻电镜图谱与蛋白质序列的跨模态对齐进行蛋白质复合物结构建模

期刊:Nature CommunicationsDOI:10.1038/s41467-024-53116-5

冷冻电镜-蛋白质序列跨模态对齐的蛋白质复合体结构建模方法:EModelX的突破与应用

作者及发表信息
本研究由中山大学计算机科学与工程学院Sheng Chen、Sen Zhang、Xiaoyu Fang、Liang Lin、Yuedong Yang团队与中山大学孙逸仙纪念医院Huiying Zhao合作完成,发表于*Nature Communications*期刊(2024年15卷,文章编号8808)。


学术背景
冷冻电子显微镜(cryo-electron microscopy, cryo-EM)是解析蛋白质结构的重要工具,尤其在疫苗设计和药物发现领域。然而,现有自动化建模方法依赖先验的链分离(chain separation),而缺乏序列指导的链分离易因跨链相互作用或噪声密度导致误差累积。为此,本研究提出EModelX——一种全自动的冷冻电镜蛋白质复合体建模方法,通过冷冻电镜密度图与蛋白质序列的跨模态对齐(cross-modal alignment),实现序列引导的建模,避免了传统链分离的需求。


研究方法与流程
1. 多任务冷冻电镜密度图解析
- 输入处理:原始冷冻电镜密度图通过坐标系统转换和体素归一化(1×1×1 Å)预处理,以消除实验条件差异。
- 深度学习预测:采用多任务3D残差U-Net(3D residual U-Net)预测Cα原子、骨架原子及氨基酸类型的分布。网络通过三层编码器-解码器结构(含跳跃连接)实现高精度分割,损失函数结合交叉熵与类别权重(如主链权重1,侧链权重0.3)。
- Cα候选生成:基于DBSCAN聚类和非极大值抑制(NMS)筛选高置信度Cα位点,并通过邻域密度加权调整坐标(公式10)。

  1. Cα-序列对齐

    • 局部结构采样:从预测的骨架分布中采样长度为7的Cα局部轨迹(trace),计算相邻Cα的连接似然(公式22-24)。
    • 跨模态评分矩阵:结合氨基酸类型匹配分数(公式21)与n-hop结构传播分数(公式26),构建序列-结构对齐矩阵。引入AlphaFold预测结构(EModelX(+af)版本)时,额外添加结构相似性评分(公式27)。
  2. 初始模型构建与优化

    • 高置信度注册:通过贪婪算法匹配高评分Cα-序列对,利用连通性和对称性分离同源链(算法1)。
    • 间隙填充:未建模区域通过序列引导的Cα穿线(threading)算法补全,结合AlphaFold结构优化局部构象(公式28)。
    • 全原子模型生成:使用PULCHRA构建全原子模型,并通过PHENIX进行实空间优化。

实验对象与规模
- 测试集:99个非冗余冷冻电镜密度图(分辨率2–4 Å,2018年后发布),涵盖单颗粒蛋白质复合体。
- 对比方法:PHENIX、Mainmast、DeepTracer、ModelAngelO。


主要结果
1. 结构恢复精度
- 初始模型:平均Cα RMSD达1.17 Å,接近原子级精度;连续残基平均长度74.1,方向正确率96.3%。
- 最终模型:平均TM-score为0.808,优于ModelAngelO(0.696);结合AlphaFold后(EModelX(+af))提升至0.911。
- 案例验证:如SARS-CoV-2 Nsp15内切核糖核酸酶(EMD-24101),TM-score达0.998(图2d)。

  1. 密度图-模型拟合度

    • 平均CC_box(全局相关系数)为0.646,接近PDB结构的0.687;31/93案例的CC_mask(局部相关系数)超越PDB(图4a-b)。
    • 局部改进实例:人类GPI转酰胺酶(EMD-32336)中,EModelX重建的短α螺旋比PDB环状结构更契合密度图(图4e-g)。
  2. AlphaFold协同效应

    • 对82个AlphaFold低置信目标(TM-score <0.7),EModelX(+af)平均TM-score提升至0.793(图5c)。
    • 案例:沙门氏菌S环(EMD-30612)中,EModelX(+af)纠正了AlphaFold的错误折叠(图5g)。

结论与价值
1. 科学意义
- 提出首个无需先验链分离的全自动复合体建模框架,通过跨模态对齐解决序列注册难题。
- 证实冷冻电镜密度图与预测结构的融合可显著提升低分辨率区域的建模可靠性。

  1. 应用前景
    • 结构生物学:加速高分辨率冷冻电镜数据的自动化解析,降低人工干预需求。
    • 药物设计:为动态构象研究(如Supplementary Note 1)和PDB结构修正提供工具(如EMD-31339的序列偏移修正)。

研究亮点
1. 方法创新
- 多任务U-Net联合预测Cα、骨架及氨基酸类型,首次实现端到端的密度图-序列全局对齐。
- 序列引导的Cα穿线算法将建模覆盖率从初始模型的80.2%提升至92.7%(结合AlphaFold)。

  1. 性能突破

  2. 跨学科融合

    • 结合深度学习(3D残差U-Net)、传统结构生物学(PHENIX优化)与AI预测(AlphaFold),为冷冻电镜分析设立新标准。

其他价值
- 数据与代码公开:测试集、训练集及代码(GitHub/Zenodo)保障可重复性。
- 动态构象研究潜力:通过对比EModelX模型与PDB结构,可揭示分子构象变化(如Supplementary Note 1)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com