本文报告了一项关于人类MYC基因座功能图谱的原创性研究。这项工作首次在碱基对分辨率上,对一个人体内源性基因的全部序列进行了饱和性功能突变筛选,并由此揭示了一种全新的、可药物化的调控RNA元件。研究人员主要来自美国哥伦比亚大学瓦格洛斯内科与外科医生学院,隶属于心脏病学部、系统生物学系以及赫伯特·欧文综合癌症中心。通讯作者为Peiguo Shi(石培国)博士和Xuebing Wu(吴雪冰)博士。该研究以预印本形式发布于生物医学预印本服务器bioRxiv,版本发布于2026年1月30日,DOI为10.64898⁄2026.01.29.702547。
本研究的学术背景聚焦于人类非编码基因组的解码。人类基因组中大部分为非编码序列,但它们的生物学功能在很大程度上仍未被系统性地理解。这些非编码序列在基因表达的多个层面(如DNA水平的启动子、增强子、RNA水平的剪接、定位、翻译和降解)发挥着调控作用。尽管进化上保守的非编码序列可能承载着重要的遗传信息,但利用序列保守性来推断其功能存在局限,尤其是对于在物种间快速分化的顺式调控元件。研究基因功能的传统方法,如大规模并行报告基因分析,往往脱离了基因的天然基因组和转录本背景。而CRISPR-Cas9筛选技术又受到其识别原型间隔序列临近基序的原型间隔序列临近基序依赖性的限制,无法实现真正无偏见的碱基对分辨率覆盖。与此同时,MYC基因作为细胞增殖的“主调节器”和最重要的癌基因之一,在约70%的人类癌症中都存在异常表达。许多肿瘤表现出“MYC成瘾性”,但针对MYC蛋白的直接疗法却由于蛋白结构无序等原因难以开发。因此,全面解析MYC基因座的功能景观,特别是其非编码区域的调控机制,具有重要的基础科学意义和潜在的转化医学价值。
本研究旨在以MYC基因座为模型,通过一项前所未有的、碱基对分辨率的饱和突变筛选,绘制其功能适应性景观。具体目标包括:系统性评估编码与非编码碱基对的功能贡献;揭示该基因座的调控逻辑,特别是探索非编码序列与进化保守性之间的关联;并在此无偏见筛查中发现可能被用于癌症治疗的新调控元件。为了实现这一目标,研究团队采用了一项先进的技术方案,其详细工作流程如下:
首先,研究团队设计并执行了针对人类MYC基因座的CRISPR饱和突变筛选。研究靶向的是全长约10,055个碱基对的MYC基因座。本研究的关键技术突破在于使用了高保真、几乎无PAM限制的SpRY-Cas9变体。与依赖经典NGG PAM的SpCas9相比,SpRY-Cas9几乎可以靶向任何序列,从而能够为基因座的每一个碱基对设计引导RNA。具体而言,研究人员设计了一个包含22,623条sgRNA(包括565条阴性对照)的文库,针对双链上的所有可能的20核苷酸序列,确保每个碱基对被四对sgRNA(两条链各两条,切割位点位于该碱基对的两侧)靶向,并有另外四条sgRNA的切割位点落在此碱基对±1 bp的范围内,总计可用8条sgRNA的数据来评估一个碱基对的功能影响。
筛选在MYC依赖性的人类多发性骨髓瘤细胞系D11中进行。该细胞系由一个MYC等位基因上带有C末端2A-d2GFP敲入的JJN-3细胞系衍生而来,便于通过荧光监测MYC表达。实验流程包括:首先通过慢病毒转导建立稳定表达高保真SpRY-Cas9的D11细胞系。随后,以低感染复数将该sgRNA文库转导至细胞中,通过mCherry(与sgRNA共表达)分选进行富集。筛选过程中维持了每个sgRNA至少1000个细胞的覆盖度。细胞在筛选的第0天(基线)、第8天和第20天被收集,以进行sgRNA的深度测序。整个实验过程独立重复了一次。
在数据分析方面,研究团队使用MAGeCK工具计算了每条sgRNA相对于第0天的丰度变化(对数2倍变化),并用阴性对照sgRNA进行了归一化,得到表型分数。为量化每个碱基对水平的表型效应,他们应用了MAGeCK的鲁棒排序聚合算法,整合了预测切割位点位于该碱基对±1 bp范围内的8条sgRNA的数据。这种方法通过数据聚合,减少了因sgRNA效率、PAM兼容性或脱靶效应差异带来的噪音。研究者计算了每个碱基对在四个样本(两个生物学重复,每个重复两个时间点)中的综合表型分数,从而以碱基对分辨率描绘了MYC基因座的“适应性景观”。一个碱基对被认为是具有显著表型(即对细胞增殖有显著影响)的,如果它在至少两个样本中表现出FDR小于0.05,并且在其余样本中显示出方向一致的趋势。研究还通过比较不同基因组区域(如启动子、编码区、UTR)的表型分数分布、分析PAM偏好性、评估预测的sgRNA活性和脱靶效应等,对筛选质量和可靠性进行了全面的验证和控制。
本研究的实验结果详实而深刻,主要发现如下:
第一,通过饱和突变筛选成功绘制了MYC基因座的碱基对分辨率功能图谱,并验证了筛选系统的稳健性。结果显示,细胞生长表型最强的位点位于一个内含子中的Alu重复元件,这与已知的靶向高拷贝重复序列会导致非特异性细胞毒性相符,因此在后续分析中被排除。在非重复区域中,启动子、5‘ UTR、剪接位点和编码区的突变主要导致细胞生长缺陷(负表型分数),而靶向3’ UTR区域则倾向于促进细胞生长(正表型分数),这与3‘ UTR在促进MYC mRNA快速降解中的作用一致。研究还确认了SpRY-Cas9的PAM偏好性,并发现表型最强的sgRNA中,86.3%不依赖经典的NGG PAM,这意味着使用传统SpCas9的筛选会遗漏大部分关键位点。此外,分析表明,对于非重复靶向的sgRNA,脱靶效应(即使存在)更可能减弱而非增强表型,因此对本研究中识别的阳性表型贡献极小。
第二,研究发现,非编码碱基对是MYC基因座功能遗传信息的主要载体。尽管编码序列仅占所检测的MYC基因座(排除重复序列后)的14%,但它们贡献了具有显著表型影响的碱基对的33%,相对于非编码序列有约3倍的富集。然而,从数量上看,非编码区域却集体包含了大多数(67%)功能位点。这一结果与跨100种脊椎动物的进化保守模式相符:在基因组范围内,超过70%的最高度保守的碱基对是非编码的。这共同强调了非编码序列作为基因组功能信息主要存储库的重要性。
第三,研究发现了一个有趣的悖论:功能性的非编码序列与进化保守性呈反相关。与普遍认为序列保守性反映功能重要性的观点相反,研究发现,具有显著表型的非编码碱基对倾向于比没有显著表型的非编码碱基对更不保守。在整个基因座中,保守的非编码碱基对与显著更弱的表型(而非更强)相关。这种反比关系在启动子区域最为明显,其次是启动子上游和下游的5‘ UTR区域,而这些区域富含转录顺式调控元件。这与此前研究表明转录因子结合位点在物种间快速分化,且大多数转录顺式调控元件缺乏序列保守性的结论一致。这一悖论凸显了仅依赖进化序列保守性来识别非编码基因组功能元件的局限性。有趣的是,研究人员发现,基于人类谱系特异性变异不宽容性(如JARVIS分数)的评估方法,能够更好地识别出具有显著表型的碱基对。这表明,结合无偏见的实验表型量化对于理解非编码序列的功能至关重要。
第四,也是本研究最核心的发现,是在MYC的3‘ UTR中鉴定出了一个超保守的、对MYC依赖性癌细胞不可或缺的RNA元件。在筛选的功能景观图中,该位点表现出强烈的负表型分数,意味着其突变会严重损害细胞生长。验证实验证实了这一点:稳定表达靶向此位点的sgRNA(sg723)的细胞在与对照细胞的共培养竞争性生长试验中被快速清除;通过直接克隆并引入该位点突变的完整MYC基因质粒进行过表达实验也证明,缺失该元件会消除MYC促进细胞生长的能力。值得注意的是,被删除的序列(CACAACCT)在至少82种脊椎动物基因组中完美保守。此外,研究人员还排除了sg723脱靶效应是造成生长表型主要原因的可能性。
第五,研究者进一步开发了靶向该超保守RNA元件的治疗性策略。他们设计了四种部分重叠的、完全经过2‘-O-甲氧乙基修饰的、用于空间位阻作用的反义寡核苷酸。这种设计旨在通过物理阻断RNA功能而非引发RNA酶H介导的切割来抑制该元件,从而减少脱靶RNA降解和免疫原性风险。实验证明,这些ASO能有效抑制多种MYC依赖性癌细胞系(包括多发性骨髓瘤JJN-3、三阴性乳腺癌MDA-MB-231、小细胞肺癌NCI-H2171和胶质母细胞瘤U87MG)的生长,但在MYC非依赖性的非恶性HEK293T细胞中则效果微弱,表明其作用具有选择性且脱靶毒性低。
第六,研究深入揭示了该3‘ UTR元件的调控机制,这是一个出乎意料的发现。尽管靶向该元件会严重抑制细胞生长,但它并未显著改变MYC mRNA或蛋白的总丰度。转录组分析揭示,ASO处理后,MYC靶基因被显著下调,而干扰素和先天免疫反应通路基因则被强烈上调,表明MYC作为转录因子的功能被抑制。机制研究表明,该3’ UTR元件负责调控MYC mRNA的亚细胞定位和MYC蛋白的核输入。在正常细胞中,MYC mRNA定位于核周区域,使得翻译产生的不稳定的MYC蛋白能够高效进入细胞核发挥转录因子功能。而当该元件被ASO阻断或通过CRISPR删除后,MYC mRNA在细胞质中分散分布,导致新合成的MYC蛋白滞留在细胞质中,无法有效进入细胞核,从而丧失其转录激活(特别是对先天免疫基因的抑制)功能,最终引发凋亡、自噬和细胞生长缺陷。
本研究的结论意义重大。它首次实现了对完整内源性基因在天然基因组背景下的饱和、碱基对分辨率功能解剖,为系统解码非编码基因组功能提供了一个强大的通用平台。研究揭示了MYC基因座的功能架构:非编码区域承载了大部分功能性遗传信息,其5‘端富含快速演化的转录激活元件,而3’端则包含高度保守的转录后抑制元件(包括新发现的超保守核定位调控元件),这解释了功能与进化保守性之间的悖论。更重要的是,研究发现并验证了一个可药物化的MYC 3‘ UTR RNA元件,开发出了能够选择性抑制MYC依赖性癌细胞的新型ASO疗法,为长期以来被视为“不可成药”的MYC靶点开辟了全新的治疗途径。
本研究的亮点突出。在方法学上,首次结合高保真、近无PAM限制的SpRY-Cas9技术,实现了真正的碱基对分辨率饱和突变筛选,解决了传统CRISPR筛选的覆盖度限制。在科学发现上,通过无偏见筛选直接证明了非编码序列在功能信息承载中的主导地位,并揭示了功能与进化保守性在非编码调控区域的反常关系。在转化应用上,成功地将基础研究发现转化为一种有前景的治疗策略,即靶向一个调控MYC mRNA定位和蛋白核输入的超保守RNA元件的ASO,这种“功能抑制而非丰度降低”的策略可能具有更好的选择性和安全性。此外,研究还深化了对RNA亚细胞定位和局部翻译在调控短寿命核蛋白功能中重要性的认识,为基因调控研究开辟了新视角。这项研究不仅绘制了MYC基因的精细功能图谱,也建立了一个从基础发现到治疗转化的成功范式。