基于MPRA深度学习的启动子调控机制解析

分享自：
基于MPRA深度学习的启动子调控机制解析

期刊:natureDOI:10.1038/s41586-025-10093-z
2025年底，Lucía Barbadilla-Martínez、Noud Klaassen、Vinícius H. Franceschini-Santos等来自荷兰Oncode研究所、乌得勒支大学医学中心、荷兰癌症研究所等多家机构的科学家团队，在*Nature*期刊上发表了一项题为“Regulatory grammar in human promoters uncovered by MPRA-based deep learning”的重要研究。这项工作通过整合优化的大规模平行报告基因检测（Massively Parallel Reporter Assays, MPRA）与高效的深度学习模型，构建了一个名为PROMoter Activity Regulatory Model (PARM)的平台，系统地解析了人类启动子（promoter）中由转录因子（Transcription Factors, TFs）驱动的动态“调控语法”，并在多种细胞类型和刺激条件下验证了其强大的预测与解析能力。
研究的学术背景
基因表达的精确定量调控是维持细胞稳态和响应外界信号的核心。启动子作为基因最核心的调控元件，包含转录起始位点（Transcription Start Site, TSS）及上下游数百个碱基对，其中密布着可被多种转录因子识别的短序列模体（motif）。然而，仅从DNA序列准确预测全基因组范围内启动子活性，并揭示其背后复杂的转录因子互作与位置偏好规则，是基因组学领域的重大挑战。
深度学习技术为该挑战提供了可能，但通常需要海量的训练数据，例如整合数千个来自不同细胞类型的全基因组转录组和表观基因组图谱。这类模型的训练计算成本高昂，且表观基因组数据是调控元件活性的间接、相关性的代理指标，难以从中推断DNA序列与启动子活性之间的因果关系。另一种数据来源是MPRA，它能在特定细胞类型中直接测试数百万个基因组DNA片段的自主调控活性。由于片段被单独测试，测得的活性可明确归因于特定序列，因果推断更为直接。近年来，MPRA与深度学习结合在果蝇和人类增强子以及酵母启动子建模中显示出潜力，但针对人类启动子的广泛应用仍有限，许多调控细节尚未被探索。
本研究旨在开发一个高效、轻量化的平台，能够经济地为特定细胞类型甚至特定条件（如药物处理）构建序列到活性的预测模型，并利用该模型深入挖掘人类启动子中转录因子的功能结合位点、动态调控网络以及复杂的“语法”规则（如模体间互作和位置偏好）。其最终目标是更深入地理解人类启动子被转录因子动态调控的基本原理。
详细的研究流程
本研究包含几个紧密衔接的主要步骤：1）初始MPRA数据生成与PARM模型构建；2）PARM模型验证与合成启动子设计；3）开发聚焦启动子的MPRA文库并扩展至多种细胞与条件；4）利用PARM系统识别功能性转录因子结合位点并解析其动态与规律。
首先，研究团队利用先前发表的、在人类K562（白血病）和HepG2（肝癌）细胞中进行的全基因组MPRA数据来训练最初的PARM模型。该MPRA以随机、部分重叠的方式覆盖基因组，平均每个位置被约240个长度在88-600 bp的片段覆盖，总共测试了数百万个片段。他们从中筛选出与30,607个经过筛选的启动子区域重叠的约1000万个片段作为训练数据。PARM的架构是一个卷积神经网络（Convolutional Neural Network, CNN），并经过了广泛的架构和超参数优化。模型仅以MPRA数据为训练依据，不预先输入转录因子模体等知识。交叉验证显示，PARM对K562和HepG2细胞的启动子活性预测准确度极高（Pearson相关系数r分别为0.92和0.89）。PARM不仅能预测启动子整体活性，还能准确预测单个测试片段的活性，并且其基于质粒MPRA数据训练的模型也能可靠预测整合到基因组中的启动子活性。
为了验证PARM模型是否真正学到了生物学相关的调控规则，研究人员进行了两项关键验证。一是对TERT癌基因启动子进行计算机饱和突变扫描（in silico saturation mutagenesis, ISM），PARM成功预测了在人类癌症中高频发生的、已知会提高TERT表达的C250T和C228T突变的作用，并识别了该启动子中的其他关键位置。二是利用“遗传算法”从头设计合成启动子：从随机序列开始，经过多轮突变、重组和PARM预测的活性筛选，生成了大量被预测为高活性的合成序列。实验验证表明，这些合成启动子确实表现出高活性，与最强的人类天然启动子相当。更重要的是，突变PARM预测出的每个合成序列中最关键的12-18个核苷酸，会导致活性平均下降约3倍，证明了模型对关键功能元件的精准定位。这些合成序列与人类基因组无显著相似性，表明PARM并非简单复制现有序列，而是学会了在特定细胞类型（K562）中有效组合激活型转录因子（如Fos-Jun, ETS, CREB相关因子）的模体。
为了大幅提高研究平台的可扩展性和经济性，以便应用于更多细胞类型和条件，团队开发了“聚焦启动子”的MPRA文库构建策略。传统全基因组MPRA文库复杂度极高（数千万片段），需要大量细胞和高转染效率。他们改用基于杂交捕获（capture-based）的方法，从人类基因组文库中特异性富集与启动子区域重叠的片段，构建了一个包含约400万独特片段（约为全基因组文库复杂度的1/600）的文库。该文库仍能以平均151倍的覆盖率覆盖所有人类TSS，且片段大小多样。使用该文库，每次实验仅需约500万至1000万个细胞，比全基因组MPRA所需细胞量减少了约240倍。利用这种聚焦文库，他们在K562和HepG2细胞中获得了与全基因组MPRA相当的预测精度。这促使他们将该流程扩展至另外七种人类细胞系（前列腺癌、乳腺癌、结肠癌、胃癌、骨肉瘤、人胚胎肾细胞、单倍体白血病细胞）以及一个患者来源的结肠癌类器官培养物，均成功构建了高精度的PARM模型。计算方面，为一种细胞系训练PARM模型仅需约1天时间，使用单块GPU，体现了该策略在实验和计算上的高度经济与高效性。
主要研究结果
利用上述高效流程，PARM模型产出了一系列深入且新颖的发现。
1. 系统识别细胞类型特异性和刺激响应的功能性转录因子位点。 通过对所有30,607个启动子进行计算机饱和突变扫描（ISM），PARM能够在每个启动子中识别出由4-10个相邻核苷酸组成的“补丁”，这些位置的突变会一致性地增强或减弱启动子活性。研究将这些模式与已知转录因子结合特异性进行匹配，识别出可能影响活性的“调控位点”（regulatory sites, RSs），而不仅仅是潜在的结合位点。在K562细胞中，大多数与RSs关联的转录因子确实在该细胞中表达。许多启动子包含多个RSs，而少数没有预测到RSs的启动子活性普遍较低。PARM甚至发现了一些罕见、注释不全但可能具有新调控功能的模体（如预测并被实验证实由ZNF48结合的模体）。
通过比较不同细胞类型的PARM模型，研究人员发现，虽然不同细胞类型间启动子自主活性高度相关，但PARM揭示了大量的细胞类型特异性调控事件。例如，在主要在肝脏中活跃的APOC2启动子中，PARM在HepG2细胞中正确预测了一个激活性的HNF4A模体，而在其他细胞类型中则无此功能。对转录因子活性的全局分析显示，某些因子（如血液相关细胞中活跃的GATA因子）在K562细胞中占主导，而肝细胞富集的HNF1A/B则仅限于HepG2细胞。一个有趣的发现是，TATA盒结合蛋白（TBP）的活性并非在所有细胞类型中普遍存在，这与近期关于TBP在小鼠胚胎干细胞中非必需的研究相呼应，提示其在基因调控中的角色可能具有细胞类型特异性。
PARM的经济性使其能轻松建模细胞对刺激的响应。研究测试了三种刺激：热休克（激活HSF1/2）、Nutlin-3a处理（激活TP53）和PMA处理（诱导K562细胞向巨核细胞样分化）。在热休克后，PARM检测到超过100个HSF1/2模体的选择性激活。在Nutlin-3a处理的HepG2细胞中，PARM检测到约60个激活性的TP53 RSs，同时发现E2F和RFX家族因子的抑制性RSs数量大幅增加，这些因子分别调控DNA修复/细胞周期相关基因和纤毛组织相关基因，显示了转录因子在响应刺激时的“分工”。在PMA处理的K562细胞中，PARM检测到Fos-Jun模体活性RSs数量翻倍，而GATA等因子的RSs几乎完全失活，这与细胞分化过程相符。这些结果表明，PARM能够解析由特定刺激触发的、涉及少数启动子的精确调控变化。
2. 揭示功能性转录因子模体的位置偏好与方向性规则。 PARM的分析揭示了转录因子在启动子中发挥功能时复杂的位置“语法”。总体而言，所有RSs在-120 bp至+10 bp（以TSS为0）区域内富集，峰值在-50 bp左右。然而，通过简单序列扫描识别出的所有潜在模体位点分布则平坦得多，数量是PARM识别的功能性RSs的约20倍，表明大多数模体在研究的细胞类型中可能并无功能。
更深入的分析显示，不同转录因子的RSs具有独特的位置分布模式。例如，YY1最活跃的位置在TSS下游附近，NFATC4偏好-120 bp至+20 bp窗口，SP1在TSS上游约-60 bp处有一个宽峰，而TBP的RSs强烈富集在经典的-30 bp位置。这表明PARM提供了无法通过简单模体匹配获得的功能性位置信息。
关于模体方向，研究发现对于大多数转录因子，RSs在正向和反向序列上的数量相似，表明其功能在两种取向上均有效。但有两个显著例外：TBP（已知）和CTCF/CTCFL。序列扫描显示CTCF正反向模体数量相等，因此其功能取向特异性并非由于序列分布不均，而可能依赖于天然序列中的特定上下文。
3. 区分激活与抑制功能，并发现其位置倾向。 PARM能够根据ISM预测的突变效应（突变导致活性丧失还是获得）来推断RSs是激活性的还是抑制性的。全局分析显示，激活性RSs的分布模式集中在-50 bp附近，而抑制性RSs的分布更广泛，且在TSS下游有显著富集。这一模式具有高度统计学意义。研究识别出了一些主要作为抑制因子（如ZEB1, SNAI1, ZBTB7A）或激活因子（如多个KLF, ELK, ELF, SP家族成员）发挥作用的转录因子。同时，许多转录因子（如IKZF1, NRF1）在PARM预测中同时具有激活和抑制功能，具体取决于启动子背景，体现了其双功能特性。
为了更精细地研究位置依赖性，研究使用PARM模拟了在天然启动子序列的不同位置插入特定转录因子模体（并与突变模体对比）的效果。结果揭示了高度多样化的位置效应。例如，在FCF1启动子中，在TSS上游插入NRF1模体具有逐渐增强的激活效应，而在TSS处或下游插入则预测会抑制转录。对四种不同模体（NFYA, NRF1, SP1, YY1）在所有启动子中的系统性插入模拟表明，NFYA、NRF1和SP1模体在TSS上游通常激活，在TSS附近或下游可能转为抑制；而YY1模体则主要在下游位置显示出激活效应，尤其是在低活性启动子中。研究人员通过专门的MPRA实验验证了这些预测，在多个细胞类型中证实了NFYA、NRF1和SP1在TSS下游的抑制效应，以及YY1在这些位置的强激活效应。
研究的结论与意义
本研究成功开发了PARM这一结合了聚焦型MPRA与高效深度学习的平台，能够为多种人类细胞类型和条件构建详细、准确的启动子活性预测模型。利用PARM，研究人员系统性地绘制了自然人类启动子中功能性转录因子结合位点图谱，揭示了细胞类型特异性和刺激响应性的动态调控网络，并深入解析了转录因子模体在方向、位置以及激活/抑制功能上的复杂“语法”规则。
这项工作的科学价值在于，它提供了一种经济、高效的策略，能够以前所未有的精细度剖析人类启动子的核心调控逻辑。与依赖海量表观基因组数据的庞大模型相比，PARM提供了一种轻量化的替代方案，专注于从功能数据中直接推断因果关系。其应用价值广泛：可用于识别疾病（如癌症）中的功能性启动子突变，解析药物或信号扰动下的基因调控网络变化，以及设计用于合成生物学或基因治疗的特定细胞类型启动子。PARM平台特别适用于个性化医疗研究，例如分析患者来源的细胞系或类器官，以深入了解疾病进展、治疗反应并发现新的药物靶点。
研究的亮点
本研究的亮点突出体现在以下几个方面： 1. 方法学的创新与高效性：开发了“聚焦启动子”的MPRA文库构建策略，极大降低了实验的细胞需求和成本；同时设计了轻量化但功能强大的深度学习模型PARM，使快速、经济地为特定条件建模成为可能。 2. 系统性的发现：不仅仅是构建了一个预测模型，更利用该模型对全人类启动子集合进行了系统性扫描，产出了关于功能性转录因子位点、细胞类型特异性、刺激响应性、位置偏好和功能取向的海量新发现。 3. 深入解析调控语法：研究超越了简单的模体识别，深入揭示了激活性与抑制性RSs在位置分布上的根本差异，以及多种转录因子功能的复杂位置依赖性和上下文依赖性，为理解启动子调控的“语言”提供了关键见解。 4. 强大的实验验证：通过合成启动子设计、饱和突变实验、模体插入验证等多种独立的MPRA实验，全面验证了PARM预测的准确性和生物学相关性，坚实支撑了其结论。 5. 平台的可扩展性与应用潜力：成功在十种细胞系和一种类器官中构建模型，并测试了多种刺激条件，证明了该平台用于动态调控研究和未来转化应用的巨大潜力。
这项研究通过巧妙整合功能基因组学实验与人工智能建模，为我们打开了一扇深入理解人类基因表达调控核心机制的新窗口，为未来的基础研究和精准医学应用提供了强大的工具和丰富的知识资源。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问