2020年7月30日,《自然》(Nature)杂志(第583卷)在线发表了一篇题为“A large-scale binding and functional map of human RNA-binding proteins”的研究论文。该研究由来自美国加州大学圣地亚哥分校、麻省理工学院、加州大学圣地亚哥分校基因组医学研究所、康涅狄格大学健康中心、蒙特利尔临床研究所等十余个机构的众多科学家合作完成,通讯作者为Xiang-Dong Fu、Eric Lécuyer、Christopher B. Burge、Brenton R. Graveley和Gene W. Yeo。这项研究是ENCODE(DNA元件百科全书)项目第三阶段的重要组成部分,旨在对人类RNA结合蛋白(RNA-binding proteins, RBPs)进行大规模、系统的结合与功能图谱绘制。
研究背景与目标 RNA结合蛋白(RBPs)是一个庞大且功能多样的蛋白质家族,它们通过与RNA结合形成核糖核蛋白复合物,在基因表达的转录后调控中扮演核心角色。这些调控包括但不限于pre-mRNA剪接、切割与多聚腺苷酸化、RNA稳定性、定位、编辑以及翻译等过程。许多RBPs参与不止一个过程,例如NOVA2同时调控选择性剪接和多聚腺苷酸化位点使用。RBP功能缺陷与神经退行性疾病、自身免疫疾病和癌症等多种疾病相关。传统上,RBPs主要通过单个蛋白质的亲和纯化来鉴定。然而,近年来基于质谱的方法已在人类和小鼠细胞中鉴定出数百种与RNA结合的蛋白质,暗示人类基因组可能编码超过1,542个RBP基因。如此庞大的RBP库很可能构成了转录后调控巨大复杂性的基础,这推动了对这些蛋白质的结合特性、RNA靶标和功能角色进行系统性研究的努力。
阐明RBP-RNA调控网络需要整合多种数据类型,每种数据都从不同视角观察RBP。例如,体内结合实验(如CLIP-seq)提供每个RBP直接结合的候选功能元件;体外结合亲和力评估揭示了驱动这些相互作用的机制;功能实验(如敲低后RNA测序)可以识别其表达或选择性剪接对RBP扰动有响应的靶标,从而加强功能关联的证据;RBPs与染色质相互作用的体内实验可以为了解某些RBPs作为转录调节因子的角色提供证据。因此,整合这些数据类型可以识别因子特异性的调控模块以及RBPs在更广泛细胞调控网络中的作用。
本研究的目标是,通过整合五种不同的实验方法,系统性地绘制和研究356种人类RBPs的功能,生成一个大规模的人类RBP结合与功能图谱。这五种实验方法分别聚焦于RBP活性的不同方面:1)使用增强型CLIP(eCLIP)检测体内RNA结合位点;2)通过敲低结合RNA测序(KD-RNA-seq)分析RBP功能;3)利用RNA结合与测序(RNA Bind-n-Seq, RBNS)测定体外结合特异性;4)通过免疫荧光成像确定亚细胞定位;5)使用染色质免疫沉淀测序(ChIP-seq)分析RBP与染色质的关联。
详细工作流程 本研究采用了多管齐下的整合性方法,工作流程主要包含以下五个核心实验程序及其数据分析:
1. 体内RNA结合位点图谱绘制(eCLIP) * 研究对象与样本量:研究在K562和HepG2两种人类细胞系中,对150种RBPs进行了eCLIP分析,共产生了488个eCLIP实验(包括生物学重复和配对的大小匹配输入对照),最终获得了223个高质量的数据集。 * 实验方法:研究团队使用了预先筛选验证的438种IP级抗体。实验基本流程为:细胞经紫外线交联后裂解,RNA被RNase I片段化。抗体与磁珠预偶联后与裂解液孵育进行免疫沉淀(IP)。IP前,取出一小部分样品作为配对的输入对照。IP样品经过严格洗涤、RNA去磷酸化、3‘ RNA接头连接等步骤。通过蛋白免疫印迹验证IP成功后,从膜上切下包含目标RBP-RNA复合物的区域,用蛋白酶K释放RNA,再进行反转录、cDNA环化、PCR扩增并构建测序文库。每个eCLIP实验包括两个独立的生物学重复IP和一个配对的输入对照。 * 数据分析与创新:研究开发了标准化的eCLIP数据处理流程。为了准确识别重复序列(如核糖体RNA、逆转录转座子)上的结合信号,研究团队开发了一种“家族感知”(family-aware)的比对策略。他们构建了一个包含多种非编码RNA、tRNA、重复元件等的多拷贝元件数据库,并制定了特殊的比对和计数规则,以量化RBP在这些重复元件家族上的相对富集情况。最终,通过严格的阈值(富集倍数≥8,p≤0.001)和可重复发现率(IDR)方法,鉴定出844,854个显著富集的peak,覆盖了18.5%的注释mRNA转录组和2.6%的pre-mRNA转录组。
2. RBP功能表征(KD-RNA-seq) * 研究对象与样本量:研究使用短发夹RNA(shRNA)或CRISPR技术,在K562和HepG2细胞中分别敲低了235和237个RBPs(共263个独特的RBPs),随后进行RNA测序。 * 实验与数据分析:通过与配对的无靶标对照数据集比较,鉴定出因RBP敲低而差异表达的基因和差异剪接事件。研究共识别出375,873个差异表达基因实例(涉及20,542个基因)和221,612个差异剪接实例(涉及38,555个选择性剪接事件)。为了消除潜在的GC含量偏差,研究采用了Salmon和CQN软件工具进行归一化处理。此外,研究还为每个RBP生成了“RNA剪接图谱”,该图谱通过meta-exon分析,平均了RBP敲低响应性剪接事件周围的eCLIP富集模式,从而揭示RBP结合与剪接调控之间的空间关系。
3. 体外结合特异性测定(RNA Bind-n-Seq, RBNS) * 研究对象与样本量:研究使用重组纯化的RBPs和随机RNA寡核苷酸池,对78种RBPs进行了体外结合特异性分析。 * 实验方法:RBNS实验能够定量评估RBP对RNA序列和结构的结合偏好。通过分析RBP结合的RNA序列,可以识别出高度富集的k-mer(本研究主要关注5-mer),并将其聚类为结合基序。 * 数据分析:对于约一半的RBP(37/78),可以识别出单个主导基序;其余RBP则表现出更复杂的结合模式,最好用两个(32/78)甚至三个或更多基序来描述。研究将体外RBNS识别的基序与体内eCLIP peak中富集的序列进行了比较,以探究内在结合特异性在多大程度上决定了体内结合偏好。
4. RBP亚细胞定位(免疫荧光) * 研究对象与样本量:研究使用经过验证的抗体,在HepG2和HeLa细胞中,对274种RBPs进行了系统的免疫荧光成像,并结合了12种特定细胞器和亚细胞结构的标记物。 * 实验与数据分析:共产生了217,412张图像,并组织了受控词汇的定位描述符。这些数据被整合到RBP图像数据库(http://rnabiology.ircm.qc.ca/rbpimage/)中。通过分析RBP的亚细胞定位(如核仁、核斑、线粒体等),并将其与eCLIP测得的RNA靶标类别(如rRNA、snRNA、线粒体RNA等)进行关联,揭示了RBP定位与其功能之间的密切联系。
5. RBP与染色质关联分析(ChIP-seq) * 研究对象与样本量:研究对58个核内RBPs在HepG2细胞和45个在K562细胞中进行了ChIP-seq分析,以调查它们与DNA的关联。其中,在HepG2和K562细胞中分别有30个和33个RBPs显示了可重复的ChIP-seq peak。 * 实验与数据分析:这些实验共识别出792,007个ChIP-seq peak,覆盖了基因组的3.8%。研究分析了这些peak与已知染色质特征(如DNase I超敏感位点、组蛋白修饰)的重叠情况,并探究了同一RBP的ChIP-seq peak与eCLIP peak之间的重叠关系,以区分其与DNA的直接结合或通过RNA的间接关联。
整合数据分析:为了便于整合分析,所有数据类型的数据都通过了相同的处理流程,并应用了一致、严格的质量控制标准。研究对356个RBPs中的249个(70%)使用了至少两种不同的实验方法,对129个(37%)使用了至少三种方法。所有数据均可在ENCODE数据协调中心获取。
主要研究结果 1. RBP结合位点的全转录组特征与细胞类型保守性:eCLIP数据将RBPs根据其结合的主要转录本区域聚类为六个“RNA类型类别”。通过家族感知比对,研究揭示了RBPs在核糖体RNA、小核RNA以及反义Alu和L1/LINE等逆转录转座子元件上的广泛结合。对在两种细胞类型中都有eCLIP数据的73个RBPs的分析表明,对于表达水平相似的基因,大多数RBP的eCLIP信号在细胞类型间是保守的;peak的差异更多反映了细胞类型特异的RNA表达,而非差异结合。
2. 体外特异性驱动体内结合:对于大多数含有单链RNA结合结构域(如RRM或KH结构域)的RBPs,其体外(RBNS)和体内(eCLIP)富集的k-mer具有高度一致性。例如,对于SRSF9、TRA2A、Rbfox2、PTBP3、TIA1和HNRNPC等蛋白,其最富集的RBNS 5-mer出现在30%或更多的eCLIP peak中。研究表明,包含体外高亲和力基序(RBNS+)的eCLIP peak,比不包含这些基序(RBNS-)的peak,与剪接调控的关联更强。例如,在外显子附近区域,RBNS+ peak所关联的外显子跳过抑制效应比RBNS- peak平均增强约25%。这表明反映序列特异性体外结合的eCLIP peak可能代表更持久或更直接的相互作用,从而产生更强的调控效果。
3. RBP靶标的功能表征: * RNA稳定性调控:通过整合eCLIP和KD-RNA-seq数据,研究鉴定出与RNA稳定性调控相关的RBPs。例如,DDX6(一个已知的RNA衰变因子)的eCLIP富集与其敲低后靶基因表达增加相关;而IGF2BP3和FMR1(已知能增加RNA稳定性)的eCLIP富集则与其敲低后靶基因表达减少相关。 * 剪接调控:RNA剪接图谱分析揭示了RBPs结合与剪接调控之间的复杂关系。SR蛋白的结合通常与敲低后外显子包含率降低相关,而hnRNP蛋白的结合则与敲低后外显子包含率增加相关,这与经典的SR和hnRNP蛋白在剪接中具有拮抗作用的模型一致。研究还发现,对于选择性外显子,其上游5‘剪接位点区域的RBP结合富集程度甚至高于直接侧翼内含子区域,这表明上游5’剪接位点在剪接调控中可能具有未被充分认识的重要性。此外,研究发现了潜在的共调控关系,例如QKI在Rbfox2敲低导致跳过的外显子附近也显示出eCLIP富集,且Rbfox2和QKI敲低引起的剪接变化具有显著相关性。
4. RBP与染色质的关联:ChIP-seq分析表明,许多RBPs与染色质广泛关联,特别是在基因启动子区域。然而,不同RBP之间的ChIP-seq peak重叠度较低,提示其结合具有特异性。对于大多数RBPs,其ChIP-seq peak与eCLIP peak的重叠度很低(平均仅6%的eCLIP peak和2.4%的ChIP-seq peak重叠),表明大部分ChIP信号反映了独立于直接RNA结合的DNA或DNA结合蛋白相互作用。但少数RBPs(如hnRNPK、PCBP1/2)在基因体内显示出ChIP-seq与eCLIP peak的重叠,提示可能存在独特的招募机制。PCBP1、PCBP2和hnRNPK的ChIP-seq信号通常以eCLIP peak为中心分布,hnRNPK的信号略向上游偏移,这可能依赖于转录方向。
5. 亚细胞空间中的RBP调控特征:免疫荧光成像揭示了RBPs多样化的亚细胞定位模式。定位与RNA靶标类别高度相关:定位于核仁的RBPs其eCLIP在45S前体rRNA和小核仁RNA上富集;定位于线粒体的RBPs在线粒体RNA上富集;定位于核斑的RBPs在近端内含子区域富集。例如,定位于线粒体的DHX30(对线粒体核糖体组装和氧化磷酸化至关重要)不仅与许多线粒体转录本相关,还在所有注释基因下游的一个未注释的H链区域显著富集,该区域具有形成茎环结构的强烈潜力,可能标志着线粒体H链转录的终止信号。
结论与意义 本研究代表了迄今为止系统性研究人类RBPs功能的最大规模努力。所产生的功能性RNA元件目录极大地扩展了人类基因组中已知调控元件的库。虽然DNA结合蛋白主要影响基因表达水平,但RBPs的功能涵盖更广泛的活动,扩展了转录组和蛋白质组的复杂性,其作用从细胞核延伸到细胞质和细胞器,并通过剪接、RNA编辑或修饰、RNA稳定性、定位和翻译等多种途径改变RNA底物。
研究证实了通过eCLIP识别的150种RBPs的体内RNA结合位点图谱与体外RNA亲和力评估、ChIP-seq染色质关联以及RBP敲低功能评估等正交方法结合的有效性。在分子水平上,研究确认了RBPs的体内和体外结合偏好高度相关,并且包含反映内在RNA亲和力基序的eCLIP peak比单独的eCLIP peak更能预测调控作用。通过无偏的全基因组分析,研究证实了SR和hnRNP蛋白在选择性剪接上具有广泛的拮抗作用,并发现选择性外显子上游5‘剪接位点在剪接调控中的作用比通常认为的更大。研究还暗示了由RBP结合的RNA结构在线粒体转录本加工中的作用,并阐明了许多RBPs的新RNA剪接图谱。此外,数据首次在RBP-核酸相互作用水平上,系统性地研究了染色质关联的基因调控与RNA加工之间的联系。在细胞水平上,免疫荧光分析将这些分子相互作用置于特定的亚细胞环境中,强调了定位数据对于解释RBP-RNA调控网络的必要性。
研究亮点 1. 规模空前:这是对356种人类RBPs进行的最大规模系统性功能图谱研究,产生了1,223个可重复的数据集。 2. 高度整合:创新性地整合了五种互补的实验方法(eCLIP、KD-RNA-seq、RBNS、免疫荧光、ChIP-seq),从结合、功能、特异性、定位和染色质关联多维度刻画RBP。 3. 方法创新:开发了“家族感知”比对策略,首次实现了对重复元件上RBP结合信号的准确量化;建立了严格的eCLIP数据处理和质量控制标准。 4. 重要发现: * 揭示了RBP结合在细胞类型间的保守性主要受靶RNA表达水平影响。 * 明确了体外序列特异性是驱动体内结合的主要因素,且包含体外基序的结合位点调控效应更强。 * 系统性验证并扩展了SR蛋白和hnRNP蛋白在剪接中的拮抗作用模型。 * 发现了选择性外显子上游5‘剪接位点是RBP结合与调控的关键热点区域。 * 揭示了RBPs与染色质在启动子区域的广泛关联,以及少数RBPs在基因体内DNA与RNA结合的共定位现象。 * 建立了RBP亚细胞定位(如核仁、线粒体、核斑)与其RNA靶标类别之间的强关联,为理解区室化调控提供了资源。 * 在线粒体转录本中发现了一个新的潜在RBP结合与调控位点。 5. 资源丰富:研究产生的所有高质量数据(eCLIP、KD-RNA-seq、RBNS、免疫荧光图像、ChIP-seq)均已公开,为RNA生物学领域提供了宝贵的资源,可作为进一步研究RNA调控各个方面(如microRNA加工、RNA编辑、翻译效率等)的基础框架。