基于多模态深度表征学习的零样本预测突变效应指导蛋白质工程
本研究报告介绍了一项由彭程、毛聪、唐金、杨森等共同完成,并发表在《细胞研究》(Cell Research)期刊(2024年,第34卷,第630-647页)上的原创性研究。该研究开发了一种名为“蛋白质突变效应预测器”(Protein Mutational Effect Predictor, ProMEP)的计算方法,旨在无需依赖多重序列比对(Multiple Sequence Alignment, MSA)或任何标注数据的情况下,实现对蛋白质突变效应的“零样本”(zero-shot)预测,并将其成功应用于指导基因编辑工具蛋白的工程化改造,显著提升了其编辑效率。
一、 研究背景与目标
在生物技术和生物医学领域,准确预测氨基酸序列突变对蛋白质功能的影响至关重要,这关系到理解疾病机理、设计新酶和开发新型疗法。然而,由于蛋白质内残基间复杂的相互作用以及突变的非线性效应(上位性),精准、无监督地预测突变效应仍然是一个根本性挑战。传统的预测方法通常依赖于多重序列比对(MSA)来获取进化信息,或者需要大量实验标注数据进行监督学习,这限制了它们在缺乏同源序列或标注数据(如新设计蛋白)的蛋白质上的应用。近年来,基于蛋白质语言模型(Protein Language Model, PLM)的序列表征学习方法为无监督预测提供了新思路,但这些模型通常缺乏对蛋白质结构上下文信息的利用,而结构信息比序列更为进化保守,且包含了决定蛋白质功能的关键长程接触信息。
本研究的目标是开发一个通用、无需MSA的突变效应预测方法,能够整合蛋白质的序列和结构信息,实现对任意蛋白质突变效应的快速、准确、零样本预测,并验证其在指导实际蛋白质工程(特别是基因编辑工具酶优化)中的应用价值。
二、 研究流程与方法
本研究包含三个主要阶段:1)多模态深度表征学习模型的构建与预训练;2)ProMEP预测器的开发与性能评估;3)应用ProMEP指导基因编辑蛋白(TnPB和TadA)的工程化改造。
第一阶段:多模态深度表征学习模型的构建与预训练 为了整合序列和结构信息,研究团队首先开发了一个包含约6.593亿参数的多模态深度表征学习模型。该模型采用编码器-解码器架构,核心创新在于引入了一种新颖的“蛋白质点云”(protein point cloud)来表示蛋白质三维结构。每个点代表一个氨基酸的α-碳原子,并附有该残基的类型和在序列中的位置信息,从而在原子分辨率上保留了结构几何信息。模型的结构嵌入模块采用了SE(3)-等变的Transformer,确保模型的输出对输入蛋白质结构的任意三维平移和旋转保持不变,这是处理结构数据的关键特性。
模型的训练是完全自监督的。研究团队利用AlphaFold蛋白质结构数据库中的约1.6亿个预测结构作为训练数据。在训练过程中,模型的任务是同时恢复被随机掩码的氨基酸序列片段和被掩码的蛋白质点云坐标。通过最小化序列恢复的交叉熵损失和点云恢复的倒角距离(Chamfer Distance)损失,模型从海量数据中学习到了能够同时蕴含序列上下文和结构上下文的、语义丰富的蛋白质表征。训练在15个节点(共120个NVIDIA A100 GPU)上进行。
在投入突变预测任务前,研究团队在15个蛋白质功能注释数据集上对该多模态模型进行了全面评估,包括酶学委员会(EC)编号、基因本体论(GO)术语和蛋白质-蛋白质相互作用(PPI)预测等任务。结果表明,该模型在所有这些任务上都达到了最先进的性能,证明了其学习到的表征能有效捕捉蛋白质功能信息,并具有良好的泛化能力和鲁棒性。
第二阶段:ProMEP预测器的开发与性能评估 基于上述预训练的多模态模型,研究团队构建了ProMEP。其核心原理是计算在给定野生型(WT)蛋白质的序列和结构上下文条件下,突变体序列与野生型序列的对数似然比(log-likelihood ratio)。这个分数被用作衡量突变效应的指标:正值通常表示有益突变,负值表示有害突变。
为了系统评估ProMEP的预测性能,研究团队在多个基准数据集上进行了测试: 1. 代表性深度突变扫描(Deep Mutational Scanning, DMS)数据集:包括UBc9、RPL40A和Protein G数据集。ProMEP的预测结果与实验测量值之间的斯皮尔曼等级相关性(Spearman’s rank correlation)在所有三个数据集上都优于当时的领先方法,包括基于MSA的方法(如AlphaMissense、EVE)和基于序列的PLM方法(如ESM系列、Tranception)。 2. ProteinGym综合基准:包含来自53个不同蛋白质的143万个变异体。ProMEP在该基准上的平均表现与当时最先进的AlphaMissense持平(平均Spearman相关性分别为0.523 vs 0.520),并显著优于其他MSA-free方法。值得注意的是,对于包含多位点突变的变体,ProMEP同样表现出色。 3. 低同源性及新设计蛋白质评估:为了验证ProMEP在缺乏同源序列情况下的优势,研究团队在两类蛋白质上进行了测试。一是来自ClinVar的、同源序列很少(<100条)的蛋白质致病性变异预测,ProMEP表现优异;二是对一个包含大量“从头设计”(de novo designed)蛋白质结构域的稳定性基准数据集进行测试,这些设计蛋白与已知天然蛋白序列相似性很低。ProMEP在预测这些设计蛋白突变体的稳定性变化时,显著优于所有其他MSA-free方法,而基于MSA的方法(如GEMME)则因无法构建有效的MSA而对大多数设计蛋白失效。 4. 速度评估:由于ProMEP完全避免了耗时的MSA搜索和处理步骤,其预测速度极快。评估显示,对于一个长度为1000个氨基酸的蛋白质,ProMEP仅需0.3秒即可完成预测,比AlphaMissense快约296倍;对于更短的序列,速度优势可达1700倍以上。
此外,研究团队还对ProMEP捕获的“上下文”进行了深入分析。通过注意力机制可视化、功能位点识别、二级结构预测和蛋白质折叠分类等任务,证实了ProMEP能够有效感知序列上下文(如识别关键功能位点)和结构上下文(如准确推断局部二级结构和全局折叠类别)。消融实验进一步证明,序列和结构上下文的整合对提升预测性能均有显著贡献。
第三阶段:应用ProMEP指导蛋白质工程 研究团队选择两个重要的基因编辑相关酶——转座酶相关RNA引导核酸酶TnPB和tRNA腺苷脱氨酶TadA——作为实际应用案例。
1. TnPB的工程化改造: - 单点突变预测与验证:利用ProMEP对TnPB所有可能的“X-to-Arg”(任意氨基酸变为精氨酸)单点突变进行评分。实验验证显示,预测为“有益”的前10个突变中,有7个(70%)确实提高了TnPB的基因编辑效率;而预测为“有害”的前10个突变,则全部(100%)降低了编辑效率。其中S72R突变效果最佳。 - 多点突变设计与验证:进一步,研究团队利用ProMEP评估了所有可能的三重和五重“X-to-Arg”突变组合。基于单点突变验证结果对模型进行微调后,筛选出排名靠前的五重突变体。其中,TnPB-AI-5.6(包含D191A/S72R/K84R/E168R/K251R/V374R六个突变)在多个内源位点表现出显著的编辑效率提升。例如,在RNF2位点1,编辑效率从野生型的24.66%提升至74.04%。该突变体在13个不同基因组位点的编辑效率均优于野生型(提升1.31-4.73倍)。 - 衍生碱基编辑器构建:将失活版本的dTnPB-AI-5.6与脱氨酶融合,构建了腺嘌呤碱基编辑器(ABE)和胞嘧啶碱基编辑器(CBE)。与基于野生型dTnPB的编辑器相比,新编辑器在多个位点的编辑效率提升了1.91至26.9倍(ABE)和2.17至16.64倍(CBE)。
2. TadA的工程化改造: - 单点突变预测与验证:在已具有脱氧腺苷脱氨酶活性的TadA双突变体(A106V/D108N,即ABE1.2基础)上,利用ProMEP预测所有单点突变。实验验证了前10个有益和前10个有害突变,准确率分别为50%和100%。其中E134S和E134G突变显著提升了编辑效率。 - 高阶多点突变设计:直接利用ProMEP评估了包含10个以上突变的41个TadA高阶突变体。从中筛选出的TadA-AI-15.8(在ABE1.2基础上包含15个额外突变)表现出优异的编辑活性。 - 高性能碱基编辑器开发:将TadA-AI-15.8插入到nCas9的特定位置(形成TadA-AI-15.8-in),构建了新型ABE。与现有的高性能编辑器ABE8e和ABE9相比,TadA-AI-15.8-in在多个内源位点达到了高达77.27%的A-to-G转换效率(HEK位点7 A6),同时其旁观者编辑效应、DNA脱靶效应和RNA脱靶效应均显著低于ABE8e,展现出更优的安全性。
三、 研究结论与价值
本研究成功开发了ProMEP,一个通用、快速、无需MSA的蛋白质突变效应零样本预测工具。其核心价值在于: 1. 科学价值:提出并验证了整合蛋白质序列与结构上下文的多模态深度学习框架对于准确预测突变效应的必要性和优越性。ProMEP在广泛的基准测试中达到了最先进的性能,特别是在处理低同源性蛋白和从头设计蛋白方面优势明显,为探索巨大的未知蛋白质空间提供了强大的计算工具。 2. 方法论创新:首创了“蛋白质点云”表示法和结合SE(3)-等变Transformer的多模态架构,实现了从海量预测结构中高效学习结构信息。其MSA-free的特性带来了2-3个数量级的预测速度提升,使得大规模、高通量的蛋白质虚拟筛选和工程化设计在现实时间尺度内成为可能。 3. 应用价值:研究通过成功指导TnPB和TadA的工程化改造,并开发出具有更高编辑效率和/或更低脱靶效应的新型基因编辑工具,实证了ProMEP在解决实际生物技术难题中的强大能力。这为蛋白质工程,特别是需要引入多位点复杂突变的定向进化,提供了一种高效、智能的新策略。
四、 研究亮点
五、 其他
研究也指出了ProMEP当前的局限性,例如无法处理插入/缺失(indel)突变,以及对超长蛋白(>1024 aa)需要分段处理。作者表示未来将通过调整训练目标(如改为下一令牌预测)和利用更先进的Transformer架构(如具有循环记忆的Transformer)来开发支持长上下文和indel的版本。此外,将蛋白质-蛋白质相互作用信息整合到模型中,是未来一个重要的拓展方向。