基于逆折叠模型整合结构与进化约束的蛋白质进化方法研究
作者及机构
本研究由Hongyuan Fei、Yunjia Li、Yijing Liu、Jingjing Wei、Aojie Chen和Caixia Gao共同完成,主要来自中国科学院遗传与发育生物学研究所基因组编辑中心(New Cornerstone Science Laboratory, Center for Genome Editing)和中国科学院大学(University of Chinese Academy of Sciences)。研究成果于2025年8月21日发表在Cell期刊(卷188,页1–19),标题为《Advancing Protein Evolution with Inverse Folding Models Integrating Structural and Evolutionary Constraints》。
学术背景
蛋白质工程通过定向进化或理性设计改造蛋白质序列,以优化其功能,但传统方法存在成功率低、成本高、依赖专家经验等问题。近年来,基于深度学习的蛋白质设计方法(如ESM-IF1、ProteinMPNN)通过逆折叠(inverse folding)模型从结构预测序列,但这类模型在复杂蛋白质(如基因组编辑工具)中的应用仍受限。本研究提出AICE(AI-informed Constraints for protein Engineering)框架,通过整合结构柔性区域筛选和进化耦合(evolutionary coupling, EC)分析,实现高效的高适应性(high-fitness, HF)突变设计,并应用于碱基编辑器的开发。
研究流程
AICE单突变设计(AICE Single)
AICE组合突变设计(AICE Multi)
碱基编辑器优化
主要结果
1. 结构约束提升预测准确性:柔性区突变占HF突变的65%,且AICE Single的预测准确率比全局筛选高18%。
2. 进化耦合减少负 epistasis:AICE Multi设计的组合突变中,80%避免功能冲突,而基于BLOSUM62矩阵的突变仅44%有效。
3. 应用成果:
- enABE8e编辑窗口缩小至4 bp,效率与ABE9相当;
- enSDD6-CBE的保真度提高1.3倍;
- enDDD1-DDCBE线粒体编辑效率提升14.3倍。
结论与意义
1. 科学价值:AICE首次将逆折叠模型的序列生成能力与结构-进化约束结合,为蛋白质工程提供了通用、低成本的解决方案。
2. 应用价值:开发的碱基编辑器在精准医学和农业中潜力显著,如亨廷顿病(HTT基因编辑)和线粒体遗传病矫正。
3. 方法论创新:AICE无需任务特异性模型训练,仅需1.15 CPU小时即可完成复杂蛋白质(如SpCas9)的突变设计。
研究亮点
1. 结构导向的柔性区筛选:揭示柔性区突变对功能优化的关键作用。
2. 进化耦合驱动的组合设计:通过EC/LD分析克服多突变协同难题。
3. 跨领域应用:成功优化8类蛋白质(从数十到数千氨基酸),包括核酸酶、逆转录酶和核定位序列(NLS)。
局限性:依赖结构预测精度,且对罕见突变覆盖不足。未来可通过整合分子动力学或实验数据进一步优化。
其他价值
- 开源资源:代码和数据已公开于GitHub(https://github.com/scorpiolea/aice)。
- 专利布局:已基于成果提交专利申请。