关于μProtein框架:结合适应性景观建模与强化学习加速蛋白质工程的研究报告
一、 研究团队与发表信息
本项研究由来自Microsoft Research AI for Science(北京)、中国科学院自动化研究所、清华大学以及中关村科学院的科研人员共同完成。主要作者包括Haoran Sun、Liang He、Pan Deng、Guoqing Liu、Zhiyu Zhao、Yuliang Jiang、Chuan Cao、Fusong Ju、Lijun Wu、Haiguang Liu、Tao Qin和Tie-Yan Liu。该研究成果以题为“Accelerating protein engineering with fitness landscape modelling and reinforcement learning”的论文形式,于2025年9月发表于*Nature Machine Intelligence*期刊(第7卷,第1446–1460页)。
二、 研究背景与目标
蛋白质工程是生物技术的核心领域,旨在通过优化蛋白质序列来设计具有定制功能的蛋白质,从而推动医药、农业和技术创新。其核心挑战在于理解并导航蛋白质的“适应性景观”——即蛋白质序列与其功能(适应性)之间的复杂映射关系。由于氨基酸残基间存在复杂的相互作用(即上位效应),适应性景观通常是崎岖不平的。传统的高通量实验技术,如深度突变扫描,虽然能够系统测量单点突变的影响,但面对指数级增长的组合突变空间(多点突变)时显得力不从心,且受限于实验系统的可测量表型。
因此,开发能够从有限的实验数据(尤其是单点突变数据)中学习,并准确预测多点突变效应、从而高效探索广袤序列空间的计算模型,成为蛋白质工程领域的关键需求。本研究旨在解决这一挑战,提出了一个名为 μProtein 的集成框架。该框架的核心目标是将准确的适应性景观建模与高效的序列空间探索相结合,仅利用单点突变数据,即可设计出具有复杂多点突变的高功能蛋白质变体。
三、 研究详细工作流程
μProtein框架包含两个协同工作的核心组件:μFormer(一个用于精准预测突变效应的深度学习模型)和 μSearch(一个利用μFormer作为“先知”来高效导航蛋白质适应性景观的强化学习算法)。整个研究流程遵循“模型构建-基准测试-实验验证”的逻辑。
1. μFormer:蛋白质适应性景观建模 μFormer是一个深度学习模型,其设计目标是准确预测给定蛋白质序列的适应性分数,尤其擅长从单点突变数据泛化到预测多点突变的效应,并能处理插入/缺失突变。 * 模型架构与训练流程: * 预训练:首先,研究团队在一个包含超过3000万个蛋白质序列的大型数据库(UniRef50)上,使用一种创新的成对掩码语言模型进行自监督预训练。与传统的掩码语言模型不同,PMLM不仅预测单个被掩码的氨基酸,还预测被掩码的氨基酸对之间的联合概率,这有助于模型更好地捕捉蛋白质序列中残基间的共进化与相互作用信息。 * 微调与评分模块:在预训练模型的基础上,引入了三个专门的评分模块,用于对蛋白质序列的不同粒度特征进行建模,并整合输出最终的适应性预测分数: * 残基级评分器:评估序列中每个位置氨基酸出现的可能性,并对所有位置取平均。其优势在于不依赖于野生型序列,可直接处理突变序列,因此能天然支持长度变化的插入/缺失突变预测。 * 基序级评分器:使用卷积神经网络捕捉蛋白质序列中的局部模式(基序)信息。 * 序列级评分器:利用序列开头特殊标记的嵌入向量,学习整个蛋白质序列的全局表示。 * 模型使用实验测得的蛋白质变体适应性数据进行微调,通过最小化预测分数与真实分数之间的误差来优化所有参数。
2. μSearch:基于强化学习的序列空间探索 μSearch将蛋白质工程问题形式化为一个马尔可夫决策过程。 * 决策框架: * 状态:当前的突变体序列。 * 动作:对序列进行一个单点氨基酸突变(包括选择突变位点和突变类型)。 * 奖励:由μFormer模型给出的预测适应性分数。 * 策略:μSearch使用两个策略网络——一个负责选择突变位点,另一个负责决定在该位点进行何种氨基酸替换。 * 探索算法:采用近端策略优化算法来优化策略网络。为了在广阔的序列空间中避免陷入局部最优,算法在探索阶段引入了狄利克雷噪声,鼓励智能体尝试更多样化的突变路径。 * 工作流程:从野生型序列开始,μSearch代理在每一步根据策略网络选择一个位点和一个氨基酸进行突变,生成新的序列,并从μFormer获得奖励(预测分数)。通过多步迭代,最终生成包含多个突变的变体序列。其目标是学习一个策略,使得生成的序列能获得尽可能高的μFormer预测分数。
3. 系统性基准测试 在应用于实际蛋白质优化之前,研究团队对μFormer和μSearch进行了全面的基准测试。 * μFormer基准测试: * 数据集:在ProteinGym基准(包含78个DMS数据集)和FLIP基准上,与16种现有方法进行比较,包括基于多序列比对的方法、基于蛋白质语言模型的零样本预测方法以及其他监督学习方法。 * 评估指标:主要使用预测分数与实验观测分数之间的斯皮尔曼等级相关系数。 * 特殊任务评估:额外测试了模型在预测包含插入/缺失突变的数据集上的性能,以及在“单点训练、多点测试”设定下预测上位效应的能力。 * μSearch基准测试: * 模拟环境:使用FlexS基准测试工具箱,在五个已知的“地面真实”适应性景观(涉及DNA、RNA和蛋白质)上,将μSearch与八种先进的序列设计算法进行比较。 * 评估方式:采用多轮模拟实验设计,每轮算法提出候选序列,并用“地面真实”模型评估,比较各算法在有限查询次数内找到高适应性序列的效率。
4. 湿实验验证:TEM-1 β-内酰胺酶优化 为了验证μProtein框架的实际有效性,研究选择了一个具有明确功能和临床意义的蛋白质——TEM-1 β-内酰胺酶进行实验。 * 模型训练:使用一个已发表的、测量了约5000个TEM-1单点突变在抗生素头孢噻肟选择压力下适应性的大型DMS数据集,对μFormer进行微调。 * 序列设计与筛选: 1. 使用微调后的μFormer作为奖励函数,驱动μSearch在包含2-3个氨基酸突变的TEM-1变体空间中进行探索。 2. 通过六次独立运行(不同随机种子)的μSearch,筛选出超过1200个预测分数高于已知扩展谱β-内酰胺酶(一种对头孢噻肟有活性的临床突变体)中位数分数的候选变体。 3. 采用集成排名策略,综合六个模型对每个变体的预测排名,最终选出排名前200的变体进行湿实验验证。 4. 同时,作为对照,合成了50个随机生成的2-3点突变变体,以及15个来自文献的已知突变组合。 * 实验方法: * 文库构建:将设计的TEM-1突变基因克隆到质粒中,并转入大肠杆菌。 * 生长竞争实验:将携带不同TEM-1变体的大肠杆菌菌株,在含有固定浓度头孢噻肟的平板上进行培养,同时设置不含抗生素的对照。 * 表型测量:通过高通量测序定量各突变菌株相对于野生型菌株的相对丰度变化,以此作为TEM-1变体头孢噻肟水解活性的代理指标。
四、 主要研究结果
μFormer在突变效应预测上表现卓越:在ProteinGym基准测试中,μFormer在大多数数据集上表现优于所有对比方法,总体性能最佳。超过50%的数据集上,其预测与实验值的斯皮尔曼相关系数超过0.7,在六个数据集上甚至超过0.9。在包含插入/缺失突变的预测任务上,μFormer同样取得了最佳性能。这证明了μFormer作为一个可靠的“先知”模型,能够高精度地刻画多样化的蛋白质适应性景观。
μFormer能有效捕捉多点突变中的上位效应:在仅使用单点突变数据训练、然后预测多点突变效应的“单到多”设定下,μFormer展现出了卓越的泛化能力。通过计算“上位性分数”(观测的多点突变效应与各单点突变效应之和的差值),发现μFormer预测的上位性分数与实验观测值具有更强的相关性,且在九个测试蛋白质中的八个上,其预测误差低于简单的加性模型。这表明μFormer并非简单地记忆和累加单点突变效应,而是真正学习到了氨基酸残基间复杂的非线性相互作用。
μFormer能有效识别高性能多点突变体:在多个蛋白质的高阶突变数据集上,μFormer在识别前100名(Top-100)和前500名(Top-500)高功能变体方面,召回率显著高于其他对比模型。特别地,对于TEM-1 β-内酰胺酶,仅用单点突变数据微调后的μFormer,能够成功将临床分离的、对头孢噻肟具有高活性的扩展谱β-内酰胺酶(多为多点突变体)与活性较低的变体区分开来,预测分数与另一种定量实验(最低抑菌浓度测定)结果高度相关(ρ=0.94)。
μSearch能高效导航复杂的适应性景观:在FlexS基准的多个蛋白质景观模拟中,μSearch在有限的“实验”轮次内,相比其他算法和随机基线,表现出了更高的样本效率,能更快地找到高适应性序列。当以μFormer为先知模型,在TEM-1-头孢噻肟体系中进行单轮大规模虚拟筛选时,μSearch仅用约5万次模型查询就找到了其他算法在25万次查询后仍无法达到的高预测分数序列,并发现了大量预测分数超过特定阈值的高分变体,证明了其与μFormer结合后强大的探索能力。
μProtein成功设计出高活性TEM-1变体:湿实验验证取得了关键性成功:
五、 研究结论与价值
本研究成功开发并验证了μProtein框架,该框架通过整合深度学习的适应性景观精确建模(μFormer) 与强化学习的高效序列空间探索(μSearch),为蛋白质工程提供了一条强大而高效的途径。
科学价值:
应用价值:
六、 研究亮点
七、 其他有价值内容
研究还讨论了当前蛋白质工程中零样本方法与监督学习方法的权衡。对于像TEM-1这样突变效应高度依赖于特定表型(如对不同β-内酰胺抗生素的耐药性)的蛋白质,基于特定表型数据微调的监督学习方法(如μFormer)比不依赖任务数据的零样本方法更具优势。同时,作者也坦诚指出,尽管μFormer在整体基准上领先,但并非在所有任务上都最优,这反映了当前计算蛋白质设计领域尚无“万能模型”的现状,针对特定任务的优化和模型通用性的提升仍是未来方向。此外,研究也指出了当前湿实验验证规模的局限性,并建议未来结合多轮实验反馈(如机器学习引导的定向进化)来进一步提升模型性能。