5'非翻译区语言模型用于解码mRNA的非翻译区域和功能预测

5’非翻译区(5’UTR)是信使RNA(mRNA)分子起始端的一个调控区域,在调节翻译过程及影响蛋白质表达水平方面发挥着关键作用。语言模型已展现出解码蛋白质和基因组序列功能的有效性。在这项研究中,作者们介绍了一种针对5’UTR的语言模型,简称为UTR-LM。

研究背景 事实上,5’UTR在调控mRNA的翻译过程中扮演着重要角色,可以影响mRNA的稳定性、定位和翻译效率。之前已有大量研究探索了5’UTR的生物学特征,包括它的二级结构、可能与之互作的RNA结合蛋白,以及5’UTR突变对基因表达的影响等。mRNA的复杂功能及其对人类健康的潜在影响,凸显了需要开发更具普遍适用性的计算方法。 研究流程

研究来源 本研究由普林斯顿大学电子与计算机工程系的Mengdi Wang教授课题组、斯坦福大学病理系的Le Cong教授实验室、RVAC Medicines公司以及ZipCode Bio公司的科研人员共同合作完成。该论文发表于2024年4月的《自然机器智能》(Nature Machine Intelligence)杂志。

研究流程和方法 (a)研究工作流程: 该研究采用了以下工作流程: 1)收集并预处理来自多个物种的内源性5’UTR序列、合成库的5’UTR序列以及内源人5’UTR数据; 2)开发了一种基于Transformer的语言模型UTR-LM,并在上述数据上进行自监督预训练,包括掩蔽核苷酸重建任务、二级结构预测任务和最小自由能预测任务; 3)在下游任务上对UTR-LM进行微调,如平均核糖体负载(MRL)预测、mRNA翻译效率(TE)预测、mRNA表达水平(EL)预测、未注释的内部核糖体进入位点(IRES)识别等; 4)设计并合成了一个211个高预测TE的5’UTR序列库,并通过湿实验(mRNA转染和荧光素酶实验)对这些序列的性能进行了验证; 5)分析了语言模型注意力分数,揭示了一些已知的基因组模体模式和新的潜在模体。

(b)研究的主要结果: 1)在MRL预测任务上,UTR-LM较最佳基线方法的Spearman相关系数提高了5%; 2)在TE和EL预测任务上,UTR-LM较最佳基线方法的Spearman相关系数最高提升了8%; 3)在IRES识别任务上,UTR-LM将Area Under Precision-Recall Curve从0.37提高到0.52,优于最佳基线; 4)实验验证显示,该设计库中顶级的5’UTR序列相对于临床上广泛使用的优化5’UTR(NCA-7d-5’UTR),可使蛋白产量提高32.5%; 5)在独立的湿实验数据集上,UTR-LM在零次预训练条件下预测实验结果时,比最佳基线方法的Spearman相关系数高出51%; 6)该研究揭示了一些已知的调控模体模式,如Kozak序列、高GC含量与翻译效率正相关等生物学常识,并发现了一些可能的新模体。

©研究结论: 该研究提出了一种新的自监督语言模型UTR-LM,用于研究mRNA的5’UTR及解码其功能,在预测MRL、TE、EL和识别IRES等任务上展现出优异性能。研究还通过湿实验成功设计和验证了一批高效的5’UTR序列。该研究有望推进人们对基因调控的理解,并为治疗干预提供创新。

研究意义 1)科学价值:该研究提出了一种有效的计算模型来解码5’UTR的生物学功能,为深入理解mRNA在蛋白质生物合成过程中的调控机制提供了新的见解和工具。 2)应用价值:研究设计出的高效5’UTR序列有望被应用于生物技术和治疗蛋白质的生产过程,从而优化蛋白质产量。 3)研究特色:提出了一种整合序列、二级结构和最小自由能的语言模型;成功设计出性能优异的5’UTR序列并通过湿实验验证;揭示了一些已知和新发现的调控模体模式。

此研究为理解和优化5’UTR功能提供了全新的语言模型方法,不仅具有重要的科学价值,也展现了广阔的应用前景,是mRNA调控领域的一项创新性研究成果。