分享自:

大规模并行报告基因检测技术SURVEY鉴定影响人类基因组调控元件活性的单核苷酸多态性

期刊:Nature GeneticsDOI:10.1038/s41588-019-0455-2

科研报告:大规模鉴定影响调控元件活性的人类单核苷酸多态性

作者、机构与发表信息 本研究由Joris van Arensbergen与Bas van Steensel共同通讯主导,主要参与机构包括荷兰癌症研究所、哥伦比亚大学、拉德堡德大学、剑桥大学、格罗宁根大学医学中心以及塔尔图大学。研究成果以“High-throughput identification of human SNPs affecting regulatory element activity”为题,于2019年7月发表于*Nature Genetics*期刊。

学术背景 人类基因组中存在数百万计的单核苷酸多态性,其中绝大多数位于非编码区。越来越多的证据表明,这些位于增强子、启动子等调控元件内的非编码SNP能够显著影响基因调控,从而贡献于表型多样性及多种人类疾病。全基因组关联研究与表达数量性状位点作图能够识别与性状或基因表达水平相关的SNP候选集。然而,由于连锁不平衡的存在,这些研究通常难以精确定位到具体的因果SNP。以往的大规模并行报告基因分析技术虽能直接测量SNP对调控活性的影响,但其通量仅能覆盖基因组的极小部分,无法系统性地评估海量SNP的调控潜力。因此,开发一种能够在全基因组范围内、高通量且高精度地评估SNP调控功能的技术平台,对于从GWAS或eQTL研究中筛选出真正的因果SNP至关重要。本研究的核心目标正是构建这样一个资源,通过一个通量提升超过百倍的创新性MPRA策略——调控元件筛选技术,系统性地评估数百万人类SNP对增强子和启动子活性的影响,并将其与遗传学研究数据整合,以帮助识别功能性的因果变异。

详细工作流程 本研究包含以下几个核心步骤:

  1. Sure文库构建与片段关联分析: 研究选取了来自四个不同人群、基因组已完全测序的个体细胞系,以其基因组DNA为材料。通过片段化及凝胶纯化,获得了150-500bp的随机基因组DNA片段。将这些片段克隆至一个无启动子的报告载体中,该载体设计使其只有在插入片段含有功能性转录起始位点时,转染细胞后才能产生转录本。每个插入片段都连接一个独特的随机条形码序列,从而允许对数百万个DNA片段进行多重化定量读出。对于每个基因组,构建了两个独立的Sure文库,每个文库复杂度约为3亿个独特的片段-条形码对。通过双端测序,确定了每个条形码对应的基因组DNA片段的确切序列和基因组位置。最终,从四个基因组的文库中,总共测序并定位了23.9亿个独特片段,其中11亿个片段至少携带一个SNP,使得研究能够测试5,919,293个SNP(覆盖了约57%的已知常见SNP)的调控活性。每个SNP的等位基因平均由122个不同的基因组DNA片段覆盖,提供了强大的统计效能和生物学鲁棒性,因为每个等位基因都在多种不同的局部序列背景中被测试。

  2. 细胞转染与活性测定: 将上述构建好的Sure文库分别通过瞬时转染导入两种人类细胞系:K562(类红细胞白血病细胞系,作为红细胞祖细胞模型)和HepG2(肝癌细胞系,作为肝细胞模型)。转染后,分离细胞中的信使RNA,并通过Illumina测序对转录的条形码进行计数。在K562细胞中进行了三个独立的生物学重复,在HepG2细胞中进行了两个,分别获得了总计约24亿和12亿的表达条形码读数。通过比较特定条形码在cDNA中的丰度与其在初始文库中的丰度,计算出每个基因组片段的“Sure信号”,即其作为启动子或增强子活性的定量指标。

  3. SNP效应分析与RA-QTL鉴定: 对于每个SNP,研究人员根据其两个等位基因(参考等位和替代等位)将重叠的基因组DNA片段分组。然后,使用Wilcoxon秩和检验比较携带不同等位基因的片段组之间的Sure信号是否存在显著差异。为了控制假阳性率,研究采用了随机置换策略来估计错误发现率。除了统计学显著性外,还要求活性较强的等位基因的平均Sure信号至少比背景高四倍。最终,将FDR < 5%的SNP定义为“报告基因分析数量性状位点”。此分析流程是该研究的核心生物信息学方法,它利用了Sure技术固有的冗余设计(每个SNP由多个片段覆盖)来获得稳健的效应评估。

  4. RA-QTL的特征分析与机制探索: 鉴定出RA-QTL后,研究团队进行了一系列分析以验证其生物学相关性并探索潜在机制。首先,分析了RA-QTL在已知调控元件(如ENCODE项目定义的染色质状态、DNase超敏感位点)中的富集情况。其次,利用SNP2TFBS数据库,分析了RA-QTL是否倾向于破坏转录因子结合基序,并检查了预测的基序亲和力变化与Sure观测到的活性变化之间的一致性。此外,还通过体外结合蛋白质组学技术(将携带不同SNP等位基因的双链寡核苷酸探针与细胞核提取物共孵育,随后进行定量质谱分析),直接鉴定了对特定SNP等位基因表现出差异结合能力的蛋白质,从而为SNP效应的分子机制提供实验证据。

  5. 与eQTL和GWAS数据的整合分析: 为了评估Sure数据的实用价值,研究将其与公共数据库资源进行了整合。例如,将K562和HepG2的Sure数据分别与GTEx项目中全血和肝脏组织的eQTL数据进行比较,寻找重叠的SNP,并评估其效应方向的一致性。同时,还将Sure数据与一项大规模血液性状GWAS研究的结果进行叠加,在GWAS信号区域内寻找RA-QTL,以期从成百上千个连锁的GWAS SNP中优先选出最可能的因果SNP。

  6. 功能验证实验: 对于部分精选的候选因果SNP,研究采用了CRISPR-Cas9基因组编辑技术进行功能验证。例如,在K562细胞系的一个亚克隆中,将SNP rs3748136的G等位基因编辑为A等位基因,随后通过RT-qPCR检测附近非编码RNA基因NR_125431的表达变化,以确认该SNP在基因组原生环境下的调控功能。

主要结果 1. 大规模鉴定出数万个功能性SNP:在K562细胞中鉴定出19,237个RA-QTL,在HepG2细胞中鉴定出14,183个,共超过3万个。这些SNP的平均等位基因活性差异在K562为4.0倍,在HepG2为7.8倍。超过70%的RA-QTL效应可归因于单个SNP。

  1. 显著的细胞类型特异性:绝大多数RA-QTL仅在一种细胞类型中被检测到,体现了基因调控的背景依赖性。例如,位于与原发性胆汁性肝硬化相关的基因*POU2AF1*内的rs4265625,仅在HepG2细胞中显示出调控活性差异。

  2. 富集于已知调控区域并具有表观遗传学证据支持:RA-QTL在启动子和增强子相关的染色质状态中富集了5-15倍,并高度富集于DNase超敏感位点。对于在K562细胞中为杂合的RA-QTL,其Sure活性较强的等位基因也倾向于表现出更强的DNase敏感性、H3K27ac信号和ATAC-seq信号,表明Sure结果与内源性染色质状态变化一致。

  3. 与转录因子结合基序改变相关联:在K562和HepG2中,分别有31%和38%的RA-QTL被预测会改变至少一个TF的结合基序,比例显著高于所有被测试的SNP。并且,约三分之二的RA-QTL中,基序亲和力预测的效应方向(哪个等位基因破坏基序)与Sure观测到的活性变化方向(哪个等位基因活性低)一致。RA-QTL破坏的基序类型也反映了细胞类型特异的TF活性,如K562中富集GATA、STAT等红系因子基序,而HepG2中富集HNF等肝脏因子基序。

  4. 有效筛选eQTL和GWAS中的候选因果SNP

    • eQTL整合:Sure数据能够从与特定基因表达相关的数十至数百个eQTL SNP中,优先选出少数具有强调控活性的候选者。例如,在肝脏中与*XPNPEP2*基因表达相关的33个eQTL SNP中,Sure仅识别出一个强效且效应方向一致的SNP(rs3788853),该SNP此前已被证实能改变调控*XPNPEP2*的增强子活性。通过整合,Sure为GTEx中20.0%的全血egenes和11.1%的肝脏egenes在其关联的eQTL SNP集中识别出了至少一个RA-QTL。
    • GWAS整合:在针对36种血液性状的大型GWAS中,Sure数据为1,238个独立关联信号(lead SNP)附近的GWAS SNP区域识别出了RA-QTL。这些RA-QTL比匹配的对照SNP更靠近lead SNP。研究展示了多个实例,其中在包含数十个GWAS SNP的区域内,Sure只鉴定出一个或极少数强效的RA-QTL,并结合基序分析和体外蛋白质结合实验提出了可能的机制。例如,与红细胞性状相关的rs4572196(影响JUN蛋白结合)和与网织红细胞计数相关的rs3748136(影响BACH1和JUN蛋白结合)。对rs3748136的CRISPR编辑证实,将其活性较低的G等位基因改为活性较高的A等位基因,能导致附近基因NR_125431的表达上调。

结论与意义 本研究成功开发并应用了通量极高的Sure技术平台,首次实现了对近600万个人类SNP(覆盖大部分常见变异)在两种不同细胞类型中调控功能的系统性、直接性评估,创建了一个包含超过3万个功能性调控SNP的宝贵资源。这项工作的科学价值在于: 1. 资源价值:生成的RA-QTL数据集和在线查询工具(https://sure.nki.nl)为遗传学领域提供了一个强大的功能注释资源,可用于优先化GWAS和eQTL研究中的候选SNP,加速从统计关联到因果机制解析的进程。 2. 技术突破:证明了利用超高通量报告基因分析技术进行全基因组范围功能性变异扫描的可行性,其通量和设计(每个SNP在多种序列背景中测试)显著优于以往研究。 3. 生物学洞见:研究结果量化了人类基因组中具有调控功能的SNP的规模(可能占常见SNP的相当比例),并凸显了基因调控的强烈细胞类型特异性。同时,通过整合基序分析、表观基因组学和蛋白质结合数据,为理解SNP如何通过改变TF结合来影响调控元件活性提供了多层次的证据链。

研究亮点 1. 通量巨大:研究规模比之前的MPRA研究提高了超过100倍,覆盖了5.9百万个SNP。 2. 设计巧妙:利用随机片段化和冗余条形码设计,使得每个SNP的等位基因在多种不同的局部基因组序列背景中被独立测试,结果更具统计效力和生物学稳健性。 3. 系统整合:不仅进行了大规模筛选,还深入分析了RA-QTL的特征、机制,并系统地将其与主要的eQTL和GWAS公共数据集整合,展示了其巨大的应用潜力。 4. 多重验证:结合了计算预测(基序分析)、内源性表观遗传数据验证、体外蛋白质互作实验以及最终的CRISPR体内基因编辑功能验证,形成了完整的证据闭环。

其他有价值内容 研究还探讨了RA-QTL是否受到自然选择压力的问题,发现RA-QTL在功能缺失不耐受基因附近的密度略低,且群体中的等位基因频率有轻微降低的趋势,提示可能存在微弱的负选择压力,但并不强烈。此外,研究者指出Sure技术未来还可应用于分析小片段插入缺失变异、研究转录因子的调控规律以优化SNP效应预测算法,以及扩展到疾病个体以发现更多疾病相关变异,展现了该平台的广泛应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com