分享自:

基于逆折叠模型整合结构和进化约束的蛋白质进化研究

期刊:CellDOI:10.1016/j.cell.2025.06.014

基于逆折叠模型整合结构与进化约束的蛋白质进化方法研究

作者及机构
本研究由Hongyuan Fei、Yunjia Li、Yijing Liu、Jingjing Wei、Aojie Chen和Caixia Gao共同完成,主要来自中国科学院遗传与发育生物学研究所基因组编辑中心(New Cornerstone Science Laboratory, Center for Genome Editing)和中国科学院大学(University of Chinese Academy of Sciences)。研究成果于2025年8月21日发表在Cell期刊(卷188,页1–19),标题为《Advancing Protein Evolution with Inverse Folding Models Integrating Structural and Evolutionary Constraints》。


学术背景
蛋白质工程通过定向进化或理性设计改造蛋白质序列,以优化其功能,但传统方法存在成功率低、成本高、依赖专家经验等问题。近年来,基于深度学习的蛋白质设计方法(如ESM-IF1、ProteinMPNN)通过逆折叠(inverse folding)模型从结构预测序列,但这类模型在复杂蛋白质(如基因组编辑工具)中的应用仍受限。本研究提出AICE(AI-informed Constraints for protein Engineering)框架,通过整合结构柔性区域筛选进化耦合(evolutionary coupling, EC)分析,实现高效的高适应性(high-fitness, HF)突变设计,并应用于碱基编辑器的开发。


研究流程

  1. AICE单突变设计(AICE Single)

    • 数据基础:使用31个大规模深度突变扫描(deep mutational scanning, DMS)数据集,涵盖27个蛋白质家族(如Cas9、p53、SARS-CoV-2 Spike蛋白)。
    • 方法
      • 通过逆折叠模型(ESM-IF1、ProteinMPNN、LigandMPNN)生成与目标蛋白质骨架兼容的序列。
      • 计算突变出现频率(appearance rate),筛选高频突变,并引入结构约束:将突变分为柔性区(flexible regions)和非柔性区,发现柔性区突变更易提升适应性(p < 0.0001)。
      • 定义筛选阈值(β = 0.8为全局阈值,γ = 0.5为柔性区阈值),显著提高HF突变预测准确率(35% vs. 随机设计的5%)。
    • 验证:在Cas9和抗体CR6261中,AICE预测的突变(如Cas12的N199K、SARS-CoV-2 Spike的Q414A)与实验数据一致。
  2. AICE组合突变设计(AICE Multi)

    • 原理:基于进化耦合(EC)和连锁不平衡(linkage disequilibrium, LD)分析,预测协同突变。
    • 实验验证
      • 在抗体CR9114中,AICE Multi预测的多突变组合与实验测定的解离常数(Kd)显著相关(Spearman相关系数0.32–0.64)。
      • 在组蛋白HIS3和荧光蛋白ppluGFP2中,AICE Multi设计的组合突变(如5突变组合SC16)活性提升54%,且负 epistasis效应更低。
  3. 碱基编辑器优化

    • 单链DNA腺嘌呤脱氨酶(TADA8E):通过AICE Single设计122个突变,其中13个提升编辑效率(如E1M效率提升70%),并开发出编辑窗口更窄的enABE8e(4 bp窗口)。
    • 单链DNA胞嘧啶脱氨酶(SDD6):AICE Multi设计的SC9(F124K/K130T)在HEK293T细胞中编辑效率提升1.7倍,且脱靶率降低30%。
    • 双链DNA脱氨酶(DDD1):针对线粒体编辑环境优化的enDDD1(V61L/T110I)活性提升14.3倍,优于传统定向进化获得的DDDA11。

主要结果
1. 结构约束提升预测准确性:柔性区突变占HF突变的65%,且AICE Single的预测准确率比全局筛选高18%。
2. 进化耦合减少负 epistasis:AICE Multi设计的组合突变中,80%避免功能冲突,而基于BLOSUM62矩阵的突变仅44%有效。
3. 应用成果
- enABE8e编辑窗口缩小至4 bp,效率与ABE9相当;
- enSDD6-CBE的保真度提高1.3倍;
- enDDD1-DDCBE线粒体编辑效率提升14.3倍。


结论与意义
1. 科学价值:AICE首次将逆折叠模型的序列生成能力与结构-进化约束结合,为蛋白质工程提供了通用、低成本的解决方案。
2. 应用价值:开发的碱基编辑器在精准医学和农业中潜力显著,如亨廷顿病(HTT基因编辑)和线粒体遗传病矫正。
3. 方法论创新:AICE无需任务特异性模型训练,仅需1.15 CPU小时即可完成复杂蛋白质(如SpCas9)的突变设计。


研究亮点
1. 结构导向的柔性区筛选:揭示柔性区突变对功能优化的关键作用。
2. 进化耦合驱动的组合设计:通过EC/LD分析克服多突变协同难题。
3. 跨领域应用:成功优化8类蛋白质(从数十到数千氨基酸),包括核酸酶、逆转录酶和核定位序列(NLS)。

局限性:依赖结构预测精度,且对罕见突变覆盖不足。未来可通过整合分子动力学或实验数据进一步优化。


其他价值
- 开源资源:代码和数据已公开于GitHub(https://github.com/scorpiolea/aice)。
- 专利布局:已基于成果提交专利申请。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com