冷冻电镜-蛋白质序列跨模态对齐的蛋白质复合体结构建模方法:EModelX的突破与应用
作者及发表信息
本研究由中山大学计算机科学与工程学院Sheng Chen、Sen Zhang、Xiaoyu Fang、Liang Lin、Yuedong Yang团队与中山大学孙逸仙纪念医院Huiying Zhao合作完成,发表于*Nature Communications*期刊(2024年15卷,文章编号8808)。
学术背景
冷冻电子显微镜(cryo-electron microscopy, cryo-EM)是解析蛋白质结构的重要工具,尤其在疫苗设计和药物发现领域。然而,现有自动化建模方法依赖先验的链分离(chain separation),而缺乏序列指导的链分离易因跨链相互作用或噪声密度导致误差累积。为此,本研究提出EModelX——一种全自动的冷冻电镜蛋白质复合体建模方法,通过冷冻电镜密度图与蛋白质序列的跨模态对齐(cross-modal alignment),实现序列引导的建模,避免了传统链分离的需求。
研究方法与流程
1. 多任务冷冻电镜密度图解析
- 输入处理:原始冷冻电镜密度图通过坐标系统转换和体素归一化(1×1×1 Å)预处理,以消除实验条件差异。
- 深度学习预测:采用多任务3D残差U-Net(3D residual U-Net)预测Cα原子、骨架原子及氨基酸类型的分布。网络通过三层编码器-解码器结构(含跳跃连接)实现高精度分割,损失函数结合交叉熵与类别权重(如主链权重1,侧链权重0.3)。
- Cα候选生成:基于DBSCAN聚类和非极大值抑制(NMS)筛选高置信度Cα位点,并通过邻域密度加权调整坐标(公式10)。
Cα-序列对齐
初始模型构建与优化
实验对象与规模
- 测试集:99个非冗余冷冻电镜密度图(分辨率2–4 Å,2018年后发布),涵盖单颗粒蛋白质复合体。
- 对比方法:PHENIX、Mainmast、DeepTracer、ModelAngelO。
主要结果
1. 结构恢复精度
- 初始模型:平均Cα RMSD达1.17 Å,接近原子级精度;连续残基平均长度74.1,方向正确率96.3%。
- 最终模型:平均TM-score为0.808,优于ModelAngelO(0.696);结合AlphaFold后(EModelX(+af))提升至0.911。
- 案例验证:如SARS-CoV-2 Nsp15内切核糖核酸酶(EMD-24101),TM-score达0.998(图2d)。
密度图-模型拟合度
AlphaFold协同效应
结论与价值
1. 科学意义
- 提出首个无需先验链分离的全自动复合体建模框架,通过跨模态对齐解决序列注册难题。
- 证实冷冻电镜密度图与预测结构的融合可显著提升低分辨率区域的建模可靠性。
研究亮点
1. 方法创新
- 多任务U-Net联合预测Cα、骨架及氨基酸类型,首次实现端到端的密度图-序列全局对齐。
- 序列引导的Cα穿线算法将建模覆盖率从初始模型的80.2%提升至92.7%(结合AlphaFold)。
性能突破
跨学科融合
其他价值
- 数据与代码公开:测试集、训练集及代码(GitHub/Zenodo)保障可重复性。
- 动态构象研究潜力:通过对比EModelX模型与PDB结构,可揭示分子构象变化(如Supplementary Note 1)。