分享自:

结构变异通过3D基因组破坏驱动增强子劫持在透明细胞肾细胞癌中的作用

期刊:npj digital medicineDOI:10.1038/s41746-025-02186-w

一项关于结构变异通过三维基因组重组驱动肾透明细胞癌中增强子劫持的综合性多组学研究

第一, 研究团队、发表期刊与时间 本研究的主要作者包括 Yu Dong, Wenjiao Xia, Zitong Yang 等,他们均以共同第一作者身份贡献。通讯作者为 Juan Jin, Bo Xie, Guixin Zhu 和 Cheng Zhang。研究团队主要来自浙江大学医学院附属第四医院、哈尔滨医科大学附属第四医院、浙江大学医学院附属第一医院、浙江中医药大学附属第一医院等多家中国研究机构。该研究成果以题为“Structural variation drives enhancer hijacking via 3D genome disruption in CCRCC”的论文形式,于2026年发表在 npj Digital Medicine 期刊(卷9,文章号85)上。该期刊是与首尔大学盆唐医院合作出版的。

第二, 学术背景与目标 本研究的核心科学领域是癌症基因组学与三维(3D)表观基因组学的交叉领域,具体聚焦于肾透明细胞癌。肾细胞癌(RCC)是全球常见的泌尿系统恶性肿瘤,其中肾透明细胞癌(ccRCC)占70-80%,具有高度异质性和侵袭性。尽管手术是标准治疗,但复发、转移和放化疗抵抗导致患者预后不佳。因此,深入理解其分子病理机制对于开发新的诊疗策略至关重要。

既往研究通过二代测序(NGS)技术,已明确了ccRCC中VHL、PBRM1、SETD2等基因的单核苷酸变异(SNV)和短插入缺失(indel)的关键驱动作用。然而,涉及更大基因组片段(≥50 bp)的结构变异(SV),如缺失、重复、倒位、易位等,虽然在癌症中普遍存在且影响深远,但在ccRCC中的整体景观、致病机制及其与三维基因组结构的相互作用仍知之甚少。三维基因组架构,如染色质区室(A/B compartments)、拓扑关联域(TADs)和染色质环(loops),是基因时空特异性表达的关键调控者。SV可能通过破坏这种三维结构,导致增强子-启动子错误连接(即“增强子劫持”),进而异常激活癌基因。但这一机制在ccRCC中尚未被系统探索。

因此,本研究旨在:1)利用三代长读长测序(LRS)全面绘制ccRCC的SV图谱,发现新的SV相关癌基因靶点;2)通过Hi-C等多组学技术,揭示ccRCC发生发展过程中多维度的三维基因组重组特征;3)阐明SV与三维染色质结构的动态互作关系,特别是SV如何通过破坏三维结构驱动致癌性基因失调;4)鉴定并实验验证由SV介导的增强子劫持事件;5)基于增强子劫持特征,开发一个机器学习驱动的ccRCC预后预测框架。

第三, 详细工作流程 本研究采用了一个系统性的多组学整合分析流程,涵盖从样本准备、数据生成到生物信息学分析和实验验证的多个步骤。

1. 研究样本与细胞系: - 癌细胞系:使用两种公认的ccRCC细胞系786-O和OS-RC-2作为疾病模型。 - 正常对照细胞系:使用永生化正常肾上皮细胞系HEK293T作为对照。所有细胞系均通过STR谱分析和二代全基因组测序进行身份认证,确保无污染。

2. 多组学数据生成: - 纳米孔三代全基因组测序(ONT WGS):从细胞中提取高分子量基因组DNA,使用Oxford Nanopore PromethION平台进行长读长测序,以获得高质量的SV检测数据(N50约50 kb,平均质量值约20,平均比对率>95%,测序深度≥25x)。 - 二代全基因组测序(NGS WGS):使用Illumina NovaSeq和BGI DNBSEQ-T7平台进行短读长测序,用于与三代数据进行比较。 - 高通量染色体构象捕获测序(Hi-C):对三种细胞系进行Hi-C实验,以构建高分辨率的全基因组染色质互作图谱。实验流程包括甲醛交联、限制性内切酶(DpnII)消化、末端修复与生物素标记、原位连接、DNA纯化与片段化、生物素捕获片段建库,最后在Illumina HiSeq X Ten平台上进行测序。 - 组蛋白修饰ChIP-seq:进行H3K27ac(活性增强子/启动子标记)的染色质免疫沉淀测序,以鉴定细胞类型特异性的活性增强子。 - 转录组测序(RNA-seq):对两种癌细胞系、正常细胞系以及13例临床ccRCC样本进行RNA-seq,以分析基因表达变化。

3. 生物信息学分析流程: - SV鉴定与注释:对于三代数据,使用Minimap2比对后,联合Sniffles、NanoSV和 cuteSV多个检测器进行SV calling,并用SURVIVOR工具整合获得高可信度的共识SV集。对于二代数据,使用BWA比对后,联合Delly、Lumpy和Manta进行检测和整合。使用AnnotSV进行SV功能注释。通过比较癌细胞与正常细胞,定义ccRCC特异性SV。 - 三维基因组结构分析:使用HiC-Pro处理Hi-C数据,构建不同分辨率(1 Mb至5 kb)的互作矩阵并进行标准化。使用特征向量分析定义A/B区室,通过比较识别区室转换。使用HiCPlotTads等工具识别TADs及其边界,并分析TAD的获得、丢失和大小变化。使用Mustache软件在5 kb分辨率下鉴定染色质环(loops)和差异环。 - 增强子劫持事件鉴定:利用新开发的生物信息学工具NeoLoopfinder。该工具整合了基于三代WGS的共识SV数据、Hi-C数据校正的基因组拷贝数变异(CNV)以及Hi-C互作信息,专门用于在SV断点附近鉴定由基因组重排导致的、能够激活癌基因的异位染色质互作,即“新环”(neoloops)。 - 数据整合与功能富集:将SV、三维基因组结构(区室、TAD、环)、增强子活性(H3K27ac信号)和基因表达(RNA-seq)数据进行整合关联分析。使用GO、疾病数据库等进行通路富集分析。 - 机器学习预后模型构建:基于从细胞系中鉴定出的ccRCC特异性新环(neoloop)相关基因,利用癌症基因组图谱(TCGA)中的肾透明细胞癌队列(TCGA-KIRC)的转录组数据,开发了一个预后预测模型。采用了多种机器学习算法进行训练和测试,并评估其预测性能(如AUC值),同时构建了包含临床参数的综合列线图。

4. 实验验证流程: - SV断点验证:针对鉴定出的关键增强子劫持事件(涉及SEMA5B基因),设计了跨越预测断点的引物,通过PCR扩增和Sanger测序,在DNA水平上验证SV(倒位/易位)的存在。同时,利用三代测序的原始长读段直接展示跨越断点的连续序列。 - DNA荧光原位杂交(DNA-FISH):设计针对易位所涉染色体区域(chr2和chr3)的特异性探针,进行双色DNA-FISH实验,在细胞核内直观地证实两个染色体片段的空间共定位,从而验证易位的体细胞起源。 - 功能获得性验证: - 表达验证:通过RT-qPCR和免疫组化(IHC)在细胞系和临床样本中验证SEMA5B在ccRCC中的过表达。 - CRISPR干扰(CRISPRi):针对被劫持的增强子簇(E4-E6)和SEMA5B启动子设计sgRNA,利用CRISPRi技术在癌细胞中特异性抑制这些调控元件的活性,然后检测SEMA5B表达的下调,从而验证这些元件对SEMA5B的转录调控作用。 - 表型实验:在体外,通过小干扰RNA(siRNA)敲低SEMA5B或利用CRISPRi抑制其调控元件后,进行细胞增殖实验(如CCK-8)和细胞侵袭实验(如Transwell),评估其对癌细胞恶性表型的影响。在体内,将经过处理的癌细胞移植到小鼠体内,形成异种移植瘤模型,观察肿瘤生长速度的变化,以验证SEMA5B的致癌功能。

第四, 主要研究结果 1. ccRCC中结构变异(SV)的全面图谱: 通过纳米孔三代测序,在786-O、OS-RC-2和HEK293T细胞中分别鉴定出18,912、18,792和21,571个高可信度SV。与多数实体瘤一致,缺失和插入是主要类型。分析显示,ccRCC的重复(duplication)率显著低于其他肿瘤。SV长度分布显示,多数事件发生在1 kb以内。约三分之一的SV具有细胞系特异性,暗示其可能具有功能相关性。通过分析影响外显子的SV,发现了一批肿瘤特异性SV相关基因。其中,关键癌基因HIF1A在786-O中存在一个38 kb的缺失,而在OS-RC-2中则发现了一个新的重复事件,这扩展了ccRCC中HIF1A变异的谱系。此外,长读长测序还发现了SETD2基因中的一个2.6 kb插入,而SETD2是已知的ccRCC表观遗传调控基因。这些发现验证了所用细胞模型的分子特征。与二代测序相比,三代测序在检测SV,尤其是复杂基因组区域(如着丝粒、端粒)和重复元件相关SV方面,显示出更高的灵敏度和准确性。

2. ccRCC中与基因表达改变相关的三维基因组广泛重塑: Hi-C分析揭示,与正常细胞相比,癌细胞发生了广泛的三维基因组重组。 - 区室水平:在癌细胞中观察到约27%的基因组区域发生了A/B区室转换。其中,B区室向A区室的转换(B-to-A)虽然涉及基因总数较少,但显著富集了转录激活的癌基因(例如BTG1)。稳定A区室和B-to-A转换区域的基因表达水平更高,而A-to-B转换区域的基因表达则倾向于沉默。 - TAD水平:鉴定出数千个TADs,其中约一半在三种细胞间保守,显示了TAD结构的稳健性。然而,ccRCC特异性获得的或癌细胞共有的TADs,其尺寸显著小于保守TADs。位于ccRCC特异性TADs内的基因表达水平显著升高,并且这些基因富集在与肾癌等相关疾病的通路上,表明这些区域是转录失调和癌基因激活的“热点”。

3. 结构变异在三维染色质组织中的分布规律: 通过置换检验和密度分析发现,SV的分布并非随机。 - 与区室的关系:ccRCC特异性SV和癌细胞系中的SV显著富集在转录活跃的A区室。在染色体区域层面上,癌细胞的缺失和插入密度在A区室中升高,在B区室中降低。B-to-A转换区域也显示出较高的SV密度。 - 与TAD边界的关系:SV(特别是ccRCC特异性SV)显著富集在TAD边界区域。边界区域的SV密度也普遍较高。 - SV的破坏潜力分类:根据SV断点与TAD边界的位置关系,将SV分为四类。大多数SV位于TAD内部,对染色质折叠影响最小。而那些跨越TAD边界的SV(尤其是缺失)最有可能破坏拓扑结构,导致相邻TAD融合。

4. ccRCC特异性SV与TAD的相互作用: 分析证实,跨越TAD边界的缺失与更高的TAD融合评分显著相关。Hi-C接触图谱显示,边界区域的缺失确实导致了相邻TAD之间染色质互作的增加(即TAD融合),而TAD内部的SV则影响甚微。重要的是,位于高TAD融合评分SV区域的基因,其表达失调的比例显著高于低评分区域或基因组背景水平,且这些基因的整体表达水平也更高。这表明,SV通过破坏TAD边界介导的绝缘作用,导致增强子错误地激活邻近TAD内的癌基因,是ccRCC中一种重要的致癌机制。

5. ccRCC癌变过程中增强子与局部染色质互作的重塑: H3K27ac ChIP-seq鉴定出27,340个ccRCC特异性增强子和9,752个正常特异性增强子。功能富集显示,ccRCC特异性增强子与血管生成、缺氧反应等ccRCC核心生物学通路相关,而正常特异性增强子则与泌尿系统发育过程相关。Motif分析发现了可能调控此重编程的关键转录因子(如JUN-AP1, ZEB1)。 在5 kb分辨率下鉴定出数千个染色质环。其中,ccRCC共有环(在两种癌细胞中存在而在正常细胞中不存在)的锚点区域显示出更强的H3K27ac活性增强子信号,并且与显著更高的基因表达水平相关。这表明,局部染色质环的重塑也是驱动ccRCC转录失调的重要环节。

6. 驱动致癌性失调的增强子劫持事件的鉴定: 应用NeoLoopfinder,系统性地鉴定了由SV介导的、可激活癌基因的增强子劫持事件(新环)。其中,一个先前未被识别的病理事件被重点关注:一个复杂的染色体重排(涉及染色体倒位和易位)将一个远端的增强子簇重新定位到原癌基因SEMA5B启动子的附近。Hi-C接触图证实,在正常细胞中该增强子与SEMA5B启动子之间无互作,而在癌细胞中则形成了强烈的特异性互作环,同时伴随着SEMA5B表达的显著上调。 实验验证:DNA-FISH显示了chr2和chr3片段在癌细胞核中的共定位;断点PCR和Sanger测序证实了倒位/易位断点的存在;三代测序的长读段直接跨越了重排连接点。这些多平台证据确凿地验证了该复杂SV的真实性。

7. 增强子劫持介导的SEMA5B上调促进ccRCC肿瘤发生: - 表达分析:TCGA泛癌数据分析显示,SEMA5B在肾癌中表达显著高于正常肾组织。在细胞系和13例临床ccRCC样本中,通过RNA-seq、RT-qPCR和IHC均证实了SEMA5B在肿瘤中特异性高表达。 - 功能验证:利用CRISPRi靶向抑制被劫持的增强子簇或SEMA5B启动子,能显著降低SEMA5B的表达。敲低SEMA5B或抑制其调控元件,在体外能有效抑制癌细胞的增殖和侵袭能力,在体内小鼠模型中能显著减缓肿瘤生长。这些结果共同证明了SEMA5B是一个由增强子劫持机制激活的、功能重要的ccRCC癌基因。

8. 基于新环(neoloop)的机器学习预后预测模型: 利用从细胞系中鉴定出的ccRCC特异性新环相关基因特征,在TCGA-KIRC队列中构建的机器学习预后模型,展现出了稳健的预测性能。该模型在训练集、测试集和整个队列中的曲线下面积(AUC)分别为0.747、0.740和0.743,优于传统的WHO分级系统。基于模型风险评分可将患者分为高风险和低风险组,两组患者的总生存期(OS)和无进展生存期(PFS)存在显著差异。风险评分与年龄、TNM分期、WHO分级等临床病理特征显著正相关,证明了其临床相关性。

第五, 结论与意义 本研究通过整合长读长基因组测序、三维基因组学(Hi-C)、表观基因组学和转录组学,对ccRCC进行了全面的分子特征解析,系统阐明了结构变异(SV)如何通过破坏三维基因组结构驱动致癌性基因失调。

科学价值: 1. 绘制了高分辨率的ccRCC SV图谱:首次利用三代测序系统描绘了ccRCC的SV全景,发现了传统测序难以检测的关键癌基因(如HIF1A、SETD2)的新型SV,为ccRCC的基因组不稳定性研究提供了宝贵资源。 2. 揭示了三维基因组的多维度重组:详细描述了ccRCC中从区室转换、TAD重塑到局部染色质环重构的全尺度三维基因组架构变化,并建立了这些变化与转录失调、癌基因激活的直接关联。 3. 阐明了SV与三维基因组的动态互作机制:实证了SV非随机地富集于活跃的A区室和TAD边界,并揭示了SV(尤其是边界跨越型缺失)通过破坏TAD绝缘性导致增强子错误激活邻近基因的分子途径。 4. 发现并验证了新的致癌机制——增强子劫持:鉴定并多平台验证了由复杂SV介导的、导致SEMA5B癌基因异常激活的增强子劫持事件,拓展了对ccRCC非编码区驱动事件的认识。 5. 建立了连接机制发现与临床应用的桥梁:基于增强子劫持特征开发的机器学习预后模型,展示了将基础研究发现转化为临床实用工具的潜力,为患者风险分层和个性化管理提供了新思路。

应用价值: 1. 提供新的治疗靶点:SEMA5B被确立为一个由表观遗传重编程激活的功能性癌基因,其本身及其下游信号通路可能成为ccRCC药物开发(如抗体药物偶联物ADC、小分子抑制剂)的新靶标。 2. 提供新的生物标志物与预后工具:研究所鉴定的增强子劫持特征及基于此构建的预后模型,有望发展为辅助诊断、预后评估甚至疗效预测的生物标志物。 3. 提供方法论参考:本研究建立的多组学整合分析流程(特别是结合三代测序、Hi-C和NeoLoopfinder鉴定增强子劫持)为其他癌症的类似研究提供了范本。

第六, 研究亮点 1. 技术方法前沿性与整合性:率先在ccRCC研究中系统整合了纳米孔三代长读长测序、Hi-C三维基因组学、表观修饰图谱和转录组学,实现了从一维序列变异到三维空间调控的全方位解析。 2. 机制发现的深度与创新性:不仅描述了SV和三维基因组的变化现象,更深入阐明了二者之间的因果和互作关系,特别是通过精细的定位分析和功能实验,证实了“SV破坏TAD边界 → TAD融合 → 增强子劫持 → 癌基因激活”这一完整的致癌通路。 3. 从基础到临床的转化导向:研究并未止步于机制探索,而是进一步利用发现的特征构建了具有良好预测效能的临床预后模型,体现了转化医学的研究思路。 4. 实验验证的完备性:对关键发现(SEMA5B增强子劫持)进行了从基因组(PCR、测序、FISH)、表观基因组(Hi-C)、转录组(qPCR)到功能表型(体外增殖侵袭、体内成瘤)的多层次、多技术平台验证,结论坚实可靠。 5. 资源贡献:本研究产生的高质量三代基因组、Hi-C互作图谱等多组学数据,本身即为ccRCC研究领域提供了极具价值的公共资源。

第七, 其他有价值的内容 本研究还观察到一些有趣的现象值得未来探索:例如,永生化正常细胞HEK293T的SV负荷甚至高于部分癌细胞,这可能与SV40 T抗原诱导的基因组不稳定性有关,提示在使用此类细胞作为“正常”对照时需谨慎解读SV数据。此外,研究提出了未来值得探讨的科学问题,例如:SETD2突变导致的染色质开放状态是否会增加增强子劫持事件的发生几率?HIF1A的结构变异在VHL突变共存的情况下是否会产生叠加或协同的致癌效应?这些问题为后续研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com