分享自:

人类髓系细胞中转录因子、启动子和增强子利用的多方面分析

期刊:Journal of Leukocyte BiologyDOI:10.1189/jlb.6ta1014-477rr

人类髓系细胞转录调控网络解析:基于FANTOM5 CAGE数据的深度研究

一、 研究团队与发表信息

本研究由Anagha Joshi和David A. Hume作为共同通讯作者领导,联合了来自英国爱丁堡大学罗斯林研究所、日本RIKEN预防医学与诊断创新计划、RIKEN生命科学技术中心、瑞典卡罗林斯卡学院、德国柏林夏里特医学院、德国雷根斯堡大学医院、荷兰阿姆斯特丹学术医学中心等多个机构的科研人员共同完成。该研究成果于2015年5月发表在《Journal of Leukocyte Biology》(第97卷,第5期,第985-995页)上,标题为“Technical advance: Transcription factor, promoter, and enhancer utilization in human myeloid cells”。

二、 学术背景与研究目的

本研究属于基因组学、转录组学与免疫学交叉领域,聚焦于人类髓系细胞的发育与功能调控。髓系细胞是先天免疫系统的关键组成部分,由共同的前体细胞分化而来,包括单核细胞、巨噬细胞、树突状细胞、粒细胞(中性粒细胞、嗜酸性粒细胞等)和肥大细胞等多种类型。它们的分化命运和功能特异性主要由转录因子的组合调控决定。

尽管已有大量基于微阵列的基因表达谱研究描绘了不同髓系细胞类型的特征,但这些技术大多局限于基因水平的分析,无法精确解析转录起始位点(Transcription Start Site, TSS)、可变启动子使用以及增强子活性等精细的转录调控机制。Cap Analysis of Gene Expression (CAGE) 技术能够通过捕获和测序mRNA的5‘帽结构,提供单碱基分辨率的TSS信息,从而精确量化启动子活性,并能通过检测双向转录来预测增强子区域。

本研究旨在利用FANTOM5联盟产生的大规模CAGE数据集,专门针对人类髓系细胞谱系进行深入挖掘。具体目标包括:1) 绘制91种髓系细胞(包括正常和恶性)的转录组图谱;2) 识别髓系谱系特异性的新型转录因子、microRNA (miRNA) 和长链非编码RNA (lncRNA);3) 通过共表达分析和顺式调控元件富集,重建转录调控网络;4) 利用双向转录信号预测并验证髓系细胞特异性的新型增强子;5) 揭示粒细胞生成过程中的动态转录变化。最终,构建一个公开的在线资源(www.myeloidome.roslin.ed.ac.uk),为研究髓系细胞分化、功能及先天免疫相关基因的作用提供强大的数据平台。

三、 详细研究流程与方法

本研究是一项基于现有大规模测序数据的生物信息学深度分析,其工作流程主要包括数据选择、预处理、多层次分析和资源构建。

1. 数据选择与样本构成: 研究人员从庞大的FANTOM5数据集(包含975个样本)中精心挑选了91个与髓系细胞相关的样本。这些样本构成了一个全面的髓系细胞谱系集合,包括:18种不同的正常髓系细胞类型(每种至少2个生物学重复),涵盖了造血祖细胞(Hematopoietic Progenitor Cell, HPC)、共同髓系祖细胞(Common Myeloid Progenitor, CMP)、粒细胞-巨噬细胞祖细胞(Granulocyte Macrophage Progenitor, GMP)、前髓细胞、骨髓中性粒细胞、外周血中性粒细胞、嗜酸性粒细胞、经典(CD14+)与非经典(CD16+)单核细胞、单核细胞来源的巨噬细胞和树突状细胞、朗格汉斯细胞、浆细胞样树突状细胞以及肥大细胞等。此外,还纳入了22个急性髓系白血病(Acute Myeloid Leukemia, AML)细胞系样本,用于对比正常与恶性状态下的转录调控。

2. 数据处理与TSS鉴定: 所有样本均已完成CAGE测序。研究团队将CAGE标签序列比对到人类参考基因组(hg19版本),将邻近的标签聚类,并利用分解峰识别算法确定单个的TSS。这些TSS根据已知转录本的5‘端(500碱基内)进行注释,并汇总成区域。为了进行下游分析,研究人员筛选出在至少一个样本中表达量达到每百万标签数5个(tags per million, TPM)以上的TSS,最终获得了106,709个高质量的TSS用于后续分析。

3. 多层次数据分析流程: * 样本层面分析: 首先计算了91个样本之间的皮尔逊相关系数矩阵,并使用BioLayout Express3D软件进行可视化聚类。这揭示了不同细胞类型之间的相似性与差异性。同时,使用HOMER软件对每个样本中高表达的基因启动子区域进行了顺式调控基序富集分析,以识别关键的转录因子结合模式。 * 转录起始位点(TSS)层面分析: 这是研究的核心。对106,709个TSS的表达谱进行皮尔逊相关分析,以相关系数r=0.9为阈值构建共表达网络图。随后使用马尔可夫聚类算法(Markov Cluster Algorithm, MCL)对该网络进行聚类,最终得到162个共表达TSS簇。这些簇代表了受相似调控的启动子集合。对每个簇进行功能富集分析(超几何检验),并关联ENCODE计划的染色质免疫沉淀测序数据以及利用JASPAR数据库的基序进行富集分析,以预测调控这些簇的转录因子。 * 增强子预测: 利用CAGE技术能够检测活跃增强子区域双向转录的特性,研究人员在髓系细胞中预测了候选增强子。通过与已知基因表达谱的共表达关联,将增强子与可能调控的靶基因联系起来。 * 非编码RNA分析: 识别了在髓系细胞中表达的miRNA和长链基因间非编码RNA,并分析了它们的表达模式。 * 粒细胞生成动态分析: 专门针对从HPC到成熟中性粒细胞的发育路径上的样本,进行了时间序列式的基因表达聚类分析,以揭示分化过程中的阶段性转录程序。

4. 在线资源构建: 为了便于科学界使用这些数据,研究团队创建了一个名为“Myeloidome”的交互式网站。该网站包含多个分析选项卡,分别展示样本信息、共表达簇、基因组浏览器视图、预测的增强子、miRNA和lncRNA表达谱,以及粒细胞生成动态分析结果。

四、 主要研究结果

1. 验证样本身份与关键标记物表达: 通过检查已知谱系特异性表面受体和转录因子的表达模式,确认了数据集的生物学可靠性。例如,CSF1R(巨噬细胞集落刺激因子受体)在单核/巨噬细胞谱系中高表达,而在粒细胞和浆细胞样树突状细胞中缺失;FLT3则在祖细胞和浆细胞样树突状细胞中高表达。这些模式与已知生物学知识一致,为后续分析奠定了可信基础。

2. 可变启动子使用的普遍性与功能意义: CAGE数据揭示,转录调控因子普遍使用可变启动子。平均每个基因有约5个TSS,但在单个样本中平均只有1.2个TSS被活跃使用,表明可变启动子的使用具有高度的细胞类型特异性。研究详细展示了多个关键转录因子(如LMO2、RARA、MITF家族成员)如何通过不同的启动子产生异构体,并在不同的髓系细胞类型中特异性表达。例如,LMO2基因有三个已知转录本(LMO2-A, -B, -C),其中远端启动子(LMO2-A/B)在造血祖细胞和AML细胞中活跃,而近端启动子(LMO2-C)则特异性在单核细胞中高表达,提示其在单核细胞分化中具有特定功能。

3. 样本聚类与细胞类型特征: 样本聚类分析成功地将相同或相关的细胞类型聚集在一起,例如中性粒细胞与嗜酸性粒细胞、不同来源的单核细胞等。祖细胞与AML细胞因共享细胞周期相关基因而聚在一起。基序富集分析发现,PU.1 (SPI1)和GABPA等关键髓系转录因子基序在所有样本中富集,而E2F基序在祖细胞和AML中富集,GATA基序则特异性富集于肥大细胞,这与GATA因子在肥大细胞发育中的已知作用相符。

4. 共表达簇揭示核心调控模块: 通过TSS共表达聚类获得的162个簇,许多显示出鲜明的细胞类型特异性。例如,簇1是CD14+单核细胞特异性的,簇2是中性/嗜酸性粒细胞特异性的。研究特别关注了区分朗格汉斯细胞与其他细胞的簇(簇13和簇20)。簇13在成熟的(迁移性)朗格汉斯细胞中高表达,包含CCR7(迁移关键受体)、RelB转录因子和II类MHC基因。簇20则在未成熟的朗格汉斯细胞中富集,包含CD1a和特定的CSF1R启动子。这为理解朗格汉斯细胞不同分化阶段的功能转换提供了分子图谱。

5. 预测并验证细胞类型特异性增强子: 研究在髓系细胞中预测了20,301个活跃的增强子,其中196个具有明确的细胞类型限制性。文章重点展示了两个例子: * IRF8下游+38 kb增强子: 位于IRF8基因下游38 kb处的一个增强子,特异性在GMP中活跃。该区域与IRF8表达共相关,在ENCODE数据中显示有H3K27ac(活跃增强子标记)和DNase I超敏感位点,并被PU.1结合。在FANTOM4研究中,该区域在THP-1细胞向巨噬细胞分化时H3K9乙酰化水平下降,与IRF8表达下调同步。这些证据强烈支持该区域是调控IRF8在髓系分化中激活的关键增强子。 * KIT基因内含子内增强子: 在肥大细胞中特异性活跃,位于KIT基因第一个内含子内,与KIT主启动子表达相关。该区域在脊椎动物中高度保守,包含保守的转录因子结合位点,并在ENCODE数据中显示有转录因子结合和DNase I超敏感位点。

6. miRNA与lncRNA的转录动态: 研究鉴定了211个在髓系细胞中表达的miRNA和大量lncRNA。例如,已知的髓系调控miR-223在粒细胞中优先表达。在HOX基因簇附近,检测到髓系特异性表达的lncRNA HOIRM1,以及与AML相关的lncRNA HOTTIP。这些非编码RNA的表达图谱为研究其在髓系发育和疾病中的作用提供了线索。

7. 解析粒细胞生成过程的转录动力学: 对从HPC到成熟中性粒细胞的发育系列进行基因表达聚类,得到了38个共表达基因集,清晰地描绘了分化过程中的阶段性变化。例如:HPC特异性簇包含RUNX1等干细胞因子;祖细胞富集群与细胞增殖相关;早幼粒细胞阶段高表达髓过氧化物酶(初级颗粒蛋白);中幼粒细胞阶段表达乳铁蛋白(次级颗粒蛋白);骨髓中性粒细胞阶段诱导表达基质金属蛋白酶9(三级颗粒蛋白)和吞噬细胞氧化酶组分;而外周血中性粒细胞则高表达趋化因子受体等与炎症反应和激活相关的基因。这一分析系统性地展示了粒细胞成熟过程中功能模块的序贯激活与关闭。

五、 研究结论与价值

本研究通过对FANTOM5 CAGE数据中髓系细胞部分的深度挖掘,构建了一个前所未有的高分辨率人类髓系细胞转录调控图谱。它不仅系统性地描绘了不同髓系细胞类型的转录特征和可变启动子使用情况,还通过共表达网络分析和增强子预测,揭示了驱动细胞命运决定和功能特化的核心调控模块和顺式调控元件。

其科学价值在于:1) 提供了研究髓系细胞分化和功能的强大数据资源,使研究者能够基于“guilt-by-association”(关联推定)原则推断未注释基因的功能;2) 揭示了转录调控的复杂性远超经典的二元模型,展示了通过可变启动子和增强子使用实现细胞类型特异性调控的精细机制;3) 预测的大量细胞类型特异性增强子,为解释与髓系细胞功能或疾病相关的基因组关联研究(GWAS)中的单核苷酸多态性(SNP)位点提供了候选功能区域;4) 详细描绘的粒细胞生成转录动力学,为理解正常粒细胞发育和相关疾病(如粒细胞缺乏症)提供了分子框架。

应用价值体现在:生成的在线数据库(Myeloidome)是一个公开、易用的平台,任何研究者都可以查询特定基因、启动子或增强子在髓系细胞中的表达模式,或探索特定细胞类型的标志物和调控网络,极大地促进了先天免疫和血液学领域的研究。

六、 研究亮点

  1. 数据规模与质量: 利用了FANTOM5联盟产生的高质量、单碱基分辨率的CAGE数据,样本覆盖了人类髓系细胞谱系中几乎所有主要细胞类型及其前体,并包含正常与恶性状态的对比。
  2. 分析深度与系统性: 不仅进行了常规的差异表达分析,更进行了多层次的整合分析,包括样本聚类、TSS共表达网络构建、增强子预测、非编码RNA分析以及发育轨迹解析,提供了系统性的视角。
  3. 发现新颖调控元件: 成功预测并提供了实验证据支持的细胞类型特异性增强子(如IRF8和KIT位点的增强子),这些发现可能直接关联疾病易感性位点。
  4. 强调转录复杂性: 突出展示了关键转录因子通过使用不同的启动子来实现细胞类型特异性功能,深化了对转录调控层次的理解。
  5. 资源贡献: 研究不仅是一篇论文,更是一个持续可用的数据资源(Myeloidome网站),将复杂的数据以交互式、可访问的方式提供给科学界,提升了数据的再利用价值。

七、 其他有价值的内容

研究在讨论部分以NOD2基因为例,展示了该数据集在疾病研究中的应用潜力。NOD2基因与克罗恩病易感性相关,数据显示其表达具有单核细胞特异性,并在向巨噬细胞分化时消失。有趣的是,NOD2与SNX20基因头对头排列,且两者在髓系细胞中完全共表达,中间存在多个髓系特异性增强子。这提示SNX20可能也与该位点的克罗恩病易感性相关,为后续功能研究提供了新的假设。这体现了该数据集在从基因组关联信号到机制假说转化研究中的实用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com