酵母代谢“暗物质”的系统性探索:构建酵母代谢双模型Yeast-MetaTwin
一、 作者、机构与发表信息
本项研究由Ke Wu, Haohao Liu, Yao Zhou, Manda Sun, Runze Mao, Yindi Jiang, Eduard J. Kerkhoven, Yu Chen, Jens Nielsen, Hongting Tang, Feiran Li 共同完成。研究团队来自多个顶尖研究机构,包括清华大学深圳国际研究生院生物医药与健康工程研究院、清华大学化学工程系、中山大学深圳校区农业与生物技术学院、中国科学院深圳先进技术研究院合成生物学研究所、查尔姆斯理工大学、丹麦技术大学诺和诺德基金会生物可持续性中心、瑞典国家生命科学实验室(SciLifeLab)以及BioInnovation Institute。
这项研究成果以题为《Systematically exploring yeast metabolism through retrobiosynthesis and deep learning》的论文形式,于2026年发表在学术期刊 Nature Catalysis 上。该研究标志着在系统理解与工程化改造酿酒酵母(*Saccharomyces cerevisiae*)代谢网络方面取得了重要突破。
二、 学术背景与研究目标
本研究的核心科学领域是系统与合成生物学,特别是基因组尺度代谢模型(Genome-Scale Metabolic Model, GEM)的构建与应用。GEM是描述生物体内所有已知代谢反应、酶、基因及其相互关联的数学模型,是研究细胞表型、设计细胞工厂和分析组学数据的强大工具。酿酒酵母作为重要的模式生物和工业底盘细胞,其GEM(如Yeast8、Yeast9)已被广泛使用和持续优化超过二十年。
然而,尽管经过了长期努力,当前最先进的酵母GEM(如Yeast9)仍然存在巨大局限:它仅覆盖了酵母代谢组数据库中约10%的代谢物。这意味着超过90%的已知酵母代谢物(即代谢组的“暗物质”)及其相关的生化反应未被纳入模型。这部分未被充分认识的代谢网络被称为“地下代谢”(Underground Metabolism),主要包括已知酶的非特异性底物活性(即酶的多能性,enzyme promiscuity)以及尚未被表征的未知酶的功能。地下代谢赋予了生物体适应环境变化的灵活性,但也可能导致细胞工厂中目标产物的非预期降解,影响生产效率。
因此,本研究旨在解决一个关键的科学问题:如何系统性地探索和整合酵母的地下代谢网络,以构建一个更全面、更准确的代谢模型? 研究团队提出了一个整合了逆生物合成(Retrobiosynthesis)和深度学习(Deep Learning)的综合性计算工作流程,目标是重建一个能够覆盖已知与未知代谢空间的“酵母代谢双模型”(Yeast-MetaTwin),并利用该模型揭示地下代谢的动力学特征,预测细胞工厂中的副产物形成,最终指导代谢工程实践。
三、 详细工作流程
研究团队设计了一个包含多个步骤的系统性计算与验证流程,其核心在于将大规模的生物化学反应预测与精准的酶功能注释相结合。
第一步:数据准备与反应规则提取 首先,研究整合了来自酵母代谢组数据库(Yeast Metabolome Database, YMDB)和现有酵母GEM(Yeast9)的所有代谢物,形成了一个包含16,042个具有SMILES(简化分子线性输入规范)信息的代谢物集合。通过对比发现,有14,882个YMDB代谢物未被Yeast9收录,构成了待探索的“地下”代谢物池。同时,研究从MetaNetX和MetaCyc数据库中提取了21,921个酶促反应规则和213个自发反应规则。这些规则描述了化学反应中化学键的断裂与形成模式,是后续进行反应预测的模板。
第二步:基于逆生物合成的反应预测 这是流程中的核心创新步骤。传统逆生物合成方法在从目标产物反向推导合成路径时,会面临组合爆炸问题,因为可能的反应步骤和中间体数量呈指数级增长。本研究巧妙地规避了这一问题:它假设酵母的代谢组数据库已经包含了所有可能存在于酵母中的代谢物。基于此假设,研究将反应规则正向应用于整个酵母代谢物池,仅生成单步反应,且要求反应中所有底物和产物都必须存在于酵母代谢物池中。这一策略将问题复杂度从指数级降低到了二次方级,极大地提高了计算效率。通过这一步骤,研究预测了海量的潜在生化反应(约1.79亿个脂质相关反应和400万个非脂质相关反应)。
第三步:反应网络过滤与连接性验证 从预测的庞大反应池中,研究进一步筛选出与已知酵母代谢网络(Yeast9)相连通的反应。具体方法是:将Yeast9中的代谢物标记为“已连接”(分数为1),然后遍历所有预测反应。如果一个反应的所有底物都已“连接”,则其产物也被标记为“已连接”。这个过程迭代进行,最终筛选出一个包含1,092,946个反应的连通网络,确保所有预测反应都能通过代谢路径与酵母的核心代谢网络相连。
第四步:基于深度学习的酶功能注释 为了将预测的生化反应与酵母的基因组联系起来,研究采用了两种先进的深度学习模型——CLEAN 和 DeepECtransformer——来预测酵母基因组中所有蛋白质的酶学委员会编号(EC number)。EC编号的前三位数字定义了反应的类型。通过将预测的EC编号与预测反应的EC类型进行匹配,研究初步为大量反应分配了候选酶基因,平均每个反应约有40个候选基因。
第五步:酶-底物相互作用预测以精炼注释 为了进一步提高注释的准确性,研究引入了第三个深度学习模型 ESP,用于预测酶与特定底物之间的结合亲和力。对于每个反应,研究使用ESP模型对所有候选基因进行排序,仅保留亲和力得分最高的前10个基因作为最终的酶注释。这一步骤将平均每个反应的候选基因数减少到约8个。那些无法成功匹配到任何酵母基因的非自发反应被排除,最终构建了一个由59,865个反应、16,244个代谢物和1,976个基因组成的综合性酵母代谢网络,即 Yeast-MetaTwin 模型。该模型成功覆盖了81%的预测代谢酶和92%的酵母代谢组数据库代谢物。
第六步:模型验证与性能评估 研究对Yeast-MetaTwin进行了多方面的验证。通过通量平衡分析模拟酵母的生长、底物利用、基因必需性和合成致死相互作用,发现Yeast-MetaTwin在大多数表型预测上的准确性均优于或与Yeast9相当。例如,在生长模拟的皮尔逊相关系数上,Yeast9为0.50,而Yeast-MetaTwin提升至0.61。这表明模型在规模大幅扩张的同时,并未牺牲预测的准确性,反而有所提升。
第七步:地下代谢网络特性分析 研究利用Yeast-MetaTwin系统分析了地下代谢网络的拓扑结构和动力学特征。通过iPath3工具可视化,发现地下代谢活动广泛存在,并识别出一系列“枢纽化合物”,如核苷酸代谢物、氨基酸(如L-丝氨酸、L-天冬氨酸、L-丙氨酸)以及中心碳代谢中间体(如丙酮酸、2-酮戊二酸)。这些化合物在预测的地下通路中扮演着关键连接点的角色。
更重要的是,研究利用多种深度学习模型(如DLkcat, UniKP, TurnUP预测kcat;Boost_km, UniKP, Eitlem-kinetics预测Km)比较了已知代谢网络与地下代谢网络的动力学参数。结果显示,两者的周转数(kcat)分布相似,但地下代谢网络相关酶的米氏常数(Km)中位数显著高于已知网络(例如,使用Boost_km预测,地下网络Km中位数为0.25 mM,已知网络为0.11 mM)。这表明地下代谢反应的特征在于酶对底物的亲和力较低,而非催化效率的差异。这一发现与基于稀疏实验数据的先前假设相符。
第八步:副产物形成预测与实验验证 研究利用Yeast-MetaTwin的全面性,预测了酵母细胞工厂在生产48种内源产物和40种外源产物时可能形成的副产物。模型不仅预测了副产物反应,还提供了催化这些反应的候选基因。例如,模型成功预测了文献已报道的副产物反应,如L-赖氨酸生成尸胺(由SPE1基因编码的鸟氨酸脱羧酶催化)、L-谷氨酸生成L-谷氨酸-5-半醛等。
为了验证预测的可靠性,研究团队选择了一个具体案例进行实验验证:香叶醇(geraniol)的降解。香叶醇是一种具有商业价值的单萜醇。模型预测了香叶醇可被氧化为香叶醛(geranial),并提供了10个候选基因。研究人员克隆并纯化了这些候选基因对应的酶蛋白,以及一个已知的罗勒香叶醇脱氢酶(Gedh1p,作为阳性对照)。体外酶活测定和气相色谱-质谱(GC-MS)分析结果显示,酵母来源的Adh6p和Sfa1p蛋白确实能够有效催化香叶醇氧化为香叶醛,从而证实了模型预测的准确性。这两个基因在ESP模型的预测置信度排名中分别位列第三和第一。
四、 主要研究结果
五、 结论与意义
本研究开发了一个创新的、可推广的计算工作流程,首次将逆生物合成与深度学习驱动的酶功能注释及底物预测相结合,系统地探索并重构了生物体的地下代谢网络。由此产生的Yeast-MetaTwin模型不仅是酵母代谢研究的一个里程碑,也代表了一种构建更完整、更真实GEM的新范式。
其科学价值在于: * 拓展了对代谢“暗物质”的认知:为理解酶的多能性、代谢网络的鲁棒性和进化提供了全新的、系统性的视角。 * 建立了连接基因型与代谢表型的新桥梁:将海量的潜在生化反应与基因组编码的酶蛋白联系起来,极大地丰富了我们对基因功能的理解。 * 揭示了地下代谢的动力学共性:明确了低底物亲和力(高Km)是地下代谢的一个普遍特征,这为理解酶功能进化提供了关键线索。
其应用价值在于: * 为代谢工程和合成生物学提供了强大工具:Yeast-MetaTwin能够更准确地预测细胞生长、基因必需性,并能前瞻性地预测细胞工厂中可能出现的副产物和产物降解途径,从而指导更合理的基因敲除、途径优化和菌株设计,提高目标产物的产量和纯度。 * 提供了一个通用框架:该工作流程可直接应用于其他具有代谢组数据库的生物(如大肠杆菌、人类),用于构建其“代谢双模型”,从而推动药物发现、人类健康工程以及微生物组研究。
六、 研究亮点
七、 其他有价值的探讨
研究也坦诚地讨论了当前方法的局限性。例如,仍有少量代谢物(占代谢组的1.7%)无法在不引入非酵母代谢物的情况下连接到模型中,这可能意味着存在尚未被现有反应规则库涵盖的新颖反应机制。此外,当前的酶注释方法仍需通过EC编号进行间接映射,未来开发能够直接将蛋白质序列映射到反应SMILES的深度学习模型将进一步提升流程的能力。尽管存在这些局限,随机移除部分代谢物数据的稳健性测试表明,本研究的主要结论对代谢组数据的不完整性并不敏感,凸显了其发现的可靠性。
这项研究不仅为酵母代谢研究提供了一个前所未有的强大资源(Yeast-MetaTwin模型),更重要的是,它展示了一条利用多组学数据和人工智能技术照亮生命“暗物质”、从系统层面深入理解并工程化改造生物代谢网络的清晰路径。