分享自:

利用无细胞蛋白质合成快速筛选机器学习生成的蛋白酶变体

期刊:ACS Synthetic BiologyDOI:10.1021/acssynbio.5c00062

该研究于2025年4月30日发表于美国化学学会(American Chemical Society)旗下的期刊 *ACS Synthetic Biology*,题为《将无细胞蛋白质合成作为快速筛选机器学习生成蛋白酶变体的方法》。主要作者包括来自英国爱丁堡大学工程生物学中心、定量生物学、生物化学与生物技术研究所生物科学学院的Ella Lucille Thornton(第一作者兼通讯作者)、Jeremy T. Boyle、Nadanai Laohakunakorn以及Lynne Regan(通讯作者)。

这项研究属于合成生物学、蛋白质工程与机器学习交叉的前沿领域。随着AlphaFold等机器学习(ML)工具在蛋白质结构预测和设计领域取得革命性进展,高质量的训练数据成为了限制其进一步应用的关键瓶颈。传统上,为机器学习模型收集蛋白质变体的功能数据(如催化速率)依赖于体内表达、纯化与表征,这一过程耗时耗力,难以满足ML项目通常需要成百上千个变体数据来进行有效训练的需求。因此,开发一种快速、高通量的蛋白质功能筛选方法,以高效生成高质量的“序列-功能”数据并指导机器学习模型,对于推动蛋白质设计至关重要。本研究的目标正是展示无细胞蛋白质合成(Cell-Free Protein Synthesis, CFPS)作为一种简单、快速的工具,在机器学习工作流程中用于筛选和评估蛋白质变体活性的效用,并通过优化一种蛋白酶的动力学特性来验证这一工作流程的有效性。

研究的详细工作流程可以概括为“创造(Create)-测试(Test)-学习(Learn)”三个循环往复的阶段,并以一种名为Con1的设计蛋白酶作为模型系统进行验证。

首先,研究人员确定了待突变的目标残基。他们使用AlphaFold3对Con1蛋白酶与其底物肽的复合物进行了结构建模。随后,利用Robetta Alanine Scan(计算丙氨酸扫描)工具,预测了六个对底物结合有显著贡献的非催化残基:H167、L169、F172、L217、Q218和E219。根据它们在预测结构中的位置,这六个残基被分为两个区域进行独立突变:区域A(H167, L169, F172)和区域B(L217, Q218, E219)。

第一阶段:稀疏采样与初始数据收集(创造与测试) 1. 变体创造:针对每个区域(A和B),研究人员通过Python脚本随机生成了48个变体。在每个变体中,该区域的三个残基被同时随机突变为任何其他氨基酸,而不是传统的逐个突变。这样,每个区域都产生了48个独特的突变组合。 2. 蛋白质合成:为这总共96个变体(每个区域48个)合成了线性DNA模板。将这些DNA模板与自制的CFPS试剂(含有大肠杆菌裂解液、氨基酸、能量组分等)混合,在37°C下孵育3.5小时,直接在体外合成了蛋白酶变体。整个CFPS反应在384孔板中进行,体积仅为5微升。 3. 活性测试:蛋白质合成后,直接在同一个孔板中进行活性测定。向每个CFPS反应体系中加入基于荧光共振能量转移(FRET)的底物。该底物是一个纯化的融合蛋白,其中供体蛋白(CFP)和受体蛋白(YFP)通过Con1的特异性切割位点连接。当蛋白酶切割底物时,FRET信号会随时间减弱。通过酶标仪监测供体和受体的荧光强度,计算FRET比率随时间的变化,从而获得每个变体的底物切割初始速率。整个“生产加筛选”流程仅需6小时即可完成。 4. 数据评分:将每个变体切割底物的初始速率数据归一化至野生型Con1的活性,得到一个“适应度”(Fitness)分数。在本研究中,适应度被定义为在单一固定底物浓度下,底物切割初始速率的提升。

第二阶段:机器学习引导的定向进化(学习与再创造、再测试) 1. 机器学习模型训练:将第一阶段获得的96个随机变体的序列(用独热编码表示)及其对应的适应度分数作为训练数据,输入到一个名为“主动学习辅助的定向进化”(Active Learning-Assisted Directed Evolution, ALDE)的机器学习工作流程中。ALDE利用深度神经网络(DNN)集合来学习序列与适应度之间的映射关系。 2. 变体建议与新一轮筛选:训练后的ALDE模型通过平衡“利用”(预测具有高适应度的变体)和“探索”(模型对其预测不确定性高的变体),提出了下一批最有希望优化适应度的变体建议。 3. 合成与测试建议变体:研究人员根据模型的建议,合成了新的变体进行验证。鉴于区域A的随机变体大多无活性,他们只合成了10个ML建议的变体进行筛选。而对于结果更积极的区域B,他们合成了排名前32的ML建议变体。这些新变体同样通过CFPS合成和FRET活性测定进行评估,获得了新一轮的适应度数据。

数据与分析:FRET时间过程数据被截取在FRET比率=0.55以内的线性区间,以准确反映初始反应速率。使用GraphPad Prism对线性部分进行拟合,得到斜率值作为“速度”指标。每个变体的三个重复实验的平均斜率被归一化至野生型Con1的平均值,得到最终的适应度分数。机器学习部分的计算在爱丁堡计算与数据设施(ECDF)的资源上完成。

研究的主要结果清晰地展示了这一工作流程的有效性:

1. 稀疏采样揭示了功能关键残基与区域耐受性差异: 对初始96个随机变体的筛选显示了区域A和区域B对突变的惊人差异耐受性。区域A的突变耐受性极差,48个变体中绝大多数完全失活(图4a)。仅有的几个有活性的变体(如最好的A10,序列QLF)其序列也与野生型(HLF)非常相似,且没有变体活性超过野生型。这表明区域A的残基对蛋白酶功能可能至关重要。相比之下,区域B的变体则表现出广泛的活性范围(图4b),所有48个变体都表现出一定的活性,并且多个变体的活性超过了野生型Con1。这一结果不仅为后续的机器学习训练提供了两类对比鲜明的数据集(一个“严苛”,一个“宽松”),也提供了通过实验筛选才能获得的、超越单纯序列保守性分析的关键功能信息。

2. 机器学习引导成功提升了蛋白酶的适应度: 将初始随机采样的数据输入ALDE模型后,模型提出的建议变体在第二轮筛选中显著提升了性能。 对于区域A,尽管找到高活性变体的可能性较低,但筛选的10个ML建议变体中,90%具有活性,远高于初始随机变体的约20%(图5b)。虽然最佳变体的适应度仅与野生型相当(如变体HLL),但平均适应度和最大适应度均较随机批次有所提升。这证明了ALDE即使在功能关键、突变不耐受的区域,也能成功识别出保持功能的重要残基模式。 对于区域B,结果更为显著(图5c)。筛选的32个ML建议变体中,许多活性超过了野生型Con1。平均适应度和最大适应度相比随机批次均有明显提高。其中,表现最佳的变体TB27(在217、218、219位点的氨基酸为FSN)的适应度达到了野生型Con1的4倍。这直接实现了研究的目标——通过结合CFPS和ML,快速发现性能显著提升的酶变体。

3. CFPS筛选结果与纯化蛋白活性一致: 为了验证在CFPS混合物中观察到的活性差异确实源于蛋白酶本身催化活性的不同,而非表达量差异,研究人员选择了四个在CFPS筛选中表现出不同活性水平的变体(包括最佳变体TB27、随机批次中的优秀变体B8、活性较差的变体B31以及无活性的区域A变体A13)。将这些变体在大肠杆菌中表达、纯化、定量至相同浓度(0.1 μM)后进行FRET活性测定(图6)。结果显示,纯化蛋白的活性趋势与直接在CFPS中测定的趋势完全一致。这一关键对照实验证实,CFPS快速筛选所反映的活性差异是真实的酶催化活性差异,证明了该筛选方法的可靠性。

本研究的结论是,无细胞蛋白质合成(CFPS)是一种直接、快速、易获取的酶变体筛选工具。将其与机器学习工具策略性地结合,可以有效导航蛋白质“适应度景观”,快速优化目标活性。这项研究通过快速发现一个催化速度提升4倍的蛋白酶变体,有力演示了这一强大工作流程。

该研究具有重要的科学价值和应用价值。科学价值在于:它成功地将高通量实验(CFPS)与智能计算设计(ML)闭环连接,为解决蛋白质工程中“数据饥渴”与“实验瓶颈”的矛盾提供了一个高效范式。它展示了即使在小型实验室、中等通量(几十到几百个样本)规模下,也能通过这种“创造-测试-学习”的快速迭代,有效探索复杂的蛋白质序列空间。应用价值在于:该工作流程通用性强,可适配于多种蛋白质设计目标(如结合亲和力、溶解度、产量等),仅需替换相应的功能测定方法。CFPS的开放系统特性允许添加细胞难以耐受的底物或控制特定反应条件,进一步拓宽了其应用场景。此外,该方法成本相对较低,易于在大多数实验室内部建立,降低了蛋白质工程优化的门槛。

本研究的亮点突出体现在以下几个方面:一、方法学创新:创造性地将CFPS的快速生产能力与机器学习的数据驱动决策能力深度融合,形成了一套高效、可迭代的蛋白质设计-筛选-优化流水线。二、显著提升的效率:仅用总共138个变体的筛选(初筛96+ML引导筛选42),在极短的时间内(每个批次仅需6小时)便将目标蛋白酶的催化性能提升了4倍,展示了远超传统方法的速度优势。三、验证充分:通过将CFPS筛选结果与传统的纯化蛋白定量测定结果进行对比,严谨地证明了CFPS筛选数据的可靠性,增强了整个工作流程的说服力。四、揭示未知生物学信息:实验性稀疏采样发现了计算分析未能预测的区域耐受性差异,凸显了实验筛选在补充和验证计算预测方面不可替代的价值,说明了在脱离生物体原有环境后,酶的最优功能序列可能与进化保守序列不同。

其他有价值的内容包括:作者在讨论部分提出了对该工作流程的潜在改进建议,例如在设计的蛋白质C端添加定量标签,以标准化不同变体的表达水平,从而更精确地评分比活性。此外,他们还指出可以通过使用更快速的商业化CFPS系统或引入自动化移液机器人来进一步提升实验通量和速度。这些思考为后续研究者优化和拓展该方法提供了明确的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com