分享自:

通过UATAC-seq和深度学习建模脊椎动物调控序列景观

期刊:CellDOI:10.1016/j.cell.2025.06.020

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


脊椎动物调控序列图谱建模:uATAC-seq与深度学习的突破性研究

作者与机构
本研究由浙江大学医学院附属第一医院骨髓移植中心及再生医学中心的Xiaoping Han、Hanyu Wu、Xueyi Wang等共同完成,通讯作者为Xiaoping Han(xhan@zju.edu.cn)和Guoji Guo(ggj@zju.edu.cn)。研究成果于2025年9月18日发表于国际顶级期刊《Cell》(卷188,1-20页)。

学术背景
研究领域聚焦于基因组调控序列的解析。尽管哺乳动物调控序列的研究已取得进展(如ENCODE计划),但跨物种、高分辨率的染色质可及性(chromatin accessibility)图谱仍存在空白。传统技术如DNase-seq和ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)在通量和灵敏度上存在局限,而单细胞技术的出现为系统解析细胞类型特异的调控序列提供了可能。本研究旨在开发一种超高通量、超高灵敏度的单核ATAC-seq技术(uATAC-seq),构建五种代表性脊椎动物的候选顺式调控元件(candidate cis-regulatory elements, cCREs)图谱,并通过深度学习模型NVWA-CRE(Nvwa cis-regulatory element)预测调控序列的功能。

研究流程与方法
1. uATAC-seq技术开发
- 实验设计:通过同源适配体转座酶(homo-adaptor transposase)和温控适配体切换技术,优化了传统ATAC-seq流程,实现四轮条形码索引,单日可完成一个物种的染色质可及性图谱构建。
- 性能验证:在人类(293T)和小鼠(3T3)细胞混合实验中,双细胞率仅为0.3%-1.2%,单个核的中位唯一片段(unique fragments, UFs)达22,642-26,085,转录起始位点(TSS)富集分数>12。
- 对比优势:uATAC-seq在通量、灵敏度、成本上优于现有单核ATAC-seq技术(如s3-ATAC、10x ATAC),且无需流式分选或昂贵平台支持。

  1. 脊椎动物染色质可及性图谱构建

    • 样本覆盖:选取基因组大小差异显著的5种脊椎动物——斑马鱼(1Gb)、蝾螈(32Gb)、壁虎、鸡和小鼠,涵盖鱼类、两栖类、爬行类、鸟类和哺乳类。
    • 数据规模:共分析1,056,752个高质量单核,平均每个核检测16,317个唯一片段,TSS富集分数18.6±7.1。
    • 细胞注释:通过UMAP降维和标记基因可及性,鉴定出42-77个亚群,涵盖红细胞、免疫细胞、上皮细胞等主要谱系。
  2. cCREs的发现与特征分析

    • 开放区域定义:采用非固定长度峰值调用方法,避免传统500bp窗口的局限性。在小鼠中,43.68%的cCREs为新发现元件,主要来源于肾上腺皮质细胞等罕见细胞类型。
    • 跨物种规律:cCREs数量与基因组大小正相关(R=0.98),但单个cCREs大小保守(约250bp)。启动子区存在两类开放区域:250bp(富集CTCF等谱系特异性 motif)和900bp(富集SP1等管家 motif)。
    • 转座元件(TEs)作用:尽管TEs占基因组的12%-50%,但其开放区域仅占2%-5%,提示TEs在成体基因调控中作用有限。
  3. NVWA-CRE模型构建与应用

    • 架构设计:基于ResNext的多任务深度学习模型,输入500bp DNA序列,通过128个7bp卷积核和4层残差模块预测单核染色质可及性。
    • 性能评估:在伪细胞(10个核合并)水平,曲线下面积(AUROC)达0.93,优于scBasset等现有模型。
    • 跨物种预测:小鼠模型可准确预测斑马鱼、蝾螈等非保守区域的cCREs(80%准确率),证实调控语法(regulatory grammar)的保守性。
    • 突变效应预测:在人类CD34+细胞中,模型预测的合成突变(如HBG基因-175T>C)与碱基编辑实验结果高度一致(R=0.95),并成功指导新治疗位点(-68A>G)的发现。

主要结果与逻辑关联
- uATAC-seq的高通量特性支持了跨物种图谱的快速构建,而高灵敏度揭示了罕见细胞类型的cCREs。
- cCREs数量与基因组大小的关联性提示调控复杂性可能由基因组扩张驱动,而元件大小的保守性反映了核心调控机制的统一性。
- NVWA-CRE模型的跨物种预测能力表明,调控语法比序列相似性更保守,且模型可解码功能模块(如神经元、免疫相关序列模块)。

结论与价值
1. 科学价值
- 提供了首个跨脊椎动物的高分辨率cCREs资源(6,182,084个元件),揭示了调控序列的进化规律。
- 证明了深度学习可从基因组序列直接预测染色质可及性,为“序列-功能”关系的解析提供了新范式。
2. 应用价值
- uATAC-seq的低成本、高效率特性使其适用于临床样本的大规模筛查。
- NVWA-CRE可精准预测非编码突变的功能效应,助力疾病机制研究和治疗靶点设计。

研究亮点
1. 技术革新:uATAC-seq将单核ATAC-seq的通量提升至百万级,灵敏度超越现有方法。
2. 资源广度:覆盖脊椎动物主要类群,填补了非哺乳动物调控序列的空白。
3. 模型突破:NVWA-CRE首次实现跨物种单细胞水平的染色质可及性预测,并验证了合成突变的治疗潜力。

其他价值
- 数据公开性:所有数据可通过GEO(GSE284189)和项目网站(https://bis.zju.edu.cn/uuatac)获取,模型代码开源(GitHub: ehcilc23/uuatac)。
- 临床启示:如预测的HBG基因调控位点可为镰状细胞贫血的基因治疗提供新策略。


此报告完整呈现了研究的创新性、方法论严谨性及潜在影响,符合学术传播的规范需求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com