分享自:

利用UATAC-seq和深度学习建模脊椎动物调控序列景观

期刊:CellDOI:10.1016/j.cell.2025.06.020

这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:


脊椎动物调控序列图谱建模:uATAC-seq与深度学习的突破性研究

作者与机构
本研究由浙江大学医学院附属第一医院骨髓移植中心、干细胞与再生医学中心的Xiaoping Han、Hanyu Wu、Xueyi Wang等领衔,联合梁祝实验室(Liangzhu Laboratory)等多个团队合作完成,通讯作者为Xiaoping Han(xhan@zju.edu.cn)和Guoji Guo(ggj@zju.edu.cn)。研究成果于2025年9月18日发表于顶级期刊《Cell》(卷188,1-20页)。

学术背景
研究聚焦于基因组学与表观遗传学领域,旨在解析脊椎动物基因组中调控序列(cis-regulatory elements, CREs)的演化规律与功能机制。尽管已有研究通过DNase-seq和ATAC-seq等技术绘制了哺乳动物的染色质可及性图谱,但跨物种的系统性分析仍存在两大挑战:一是单细胞水平的高通量、高灵敏度染色质可及性检测技术的限制;二是缺乏能够从序列直接预测调控功能的计算模型。本研究通过开发超高通量单核ATAC-seq技术(uATAC-seq)和深度学习模型NVWA-CRE(NvWa Cis-Regulatory Element),填补了这一空白。

研究流程与方法
1. uATAC-seq技术开发与优化
- 技术原理:通过同源适配体转座酶(homo-adaptor transposase)和温度控制的适配体切换,实现四轮条形码标记,显著提升检测灵敏度(单日可完成一个物种的染色质图谱构建)。
- 实验验证:在人类293T和小鼠3T3细胞中验证技术性能,结果显示单核中位数唯一片段(Unique Fragments, UFs)达22,642-26,085,转录起始位点(TSS)富集分数>12。
- 创新点:相比传统方法(如10x ATAC),uATAC-seq避免了双适配体转座酶的50%产量限制,且无需流式分选(FACS)等昂贵设备。

  1. 跨物种染色质图谱构建

    • 样本选择:覆盖5种脊椎动物(斑马鱼、蝾螈、壁虎、鸡、小鼠),基因组大小跨度1-32 Gb,共分析1,056,752个高质量单核数据。
    • 数据分析:通过UMAP聚类鉴定细胞类型,发现所有物种均共享红细胞、免疫细胞、上皮细胞等9大谱系,但调控元件数量与基因组大小正相关(如蝾螈的GATA2基因座调控互作是小鼠的10倍)。
  2. NVWA-CRE深度学习模型构建

    • 架构设计:基于ResNext框架,输入500 bp DNA序列,通过128个7-mer卷积核和4层残差模块,预测单核染色质可及性。
    • 训练数据:使用uATAC-seq生成的跨物种数据集,模型在保留数据中AUROC达0.93(伪细胞水平)。
    • 功能验证:模型成功预测人类、猕猴等7种哺乳动物的调控元件,其中44.89%为新发现元件(如腺体细胞特异性CREs)。

主要结果
1. 调控元件的保守性
- 尽管调控元件数量随基因组大小增加,单个元件的大小(~250 bp增强子/~900 bp启动子)和功能模块(如CTCF、ETS motifs)在脊椎动物中高度保守。
- 转座元件(TEs)在成年组织中大多沉默,仅2-5%的TEs具有可及性,提示其对基因调控贡献有限。

  1. 跨物种预测能力

    • NVWA-CRE仅凭序列即可预测80%的非保守区域(unalignable elements)功能,例如准确推断蝾螈红细胞中胎儿血红蛋白(HBF)启动子的高可及性。
    • 模型解析出神经元、免疫、脂代谢等序列模块,揭示调控语法的层级保守性。
  2. 突变效应预测

    • 对361个疾病相关非编码变体的预测显示,265个变体(如rs2068888)具有谱系特异性效应(如肝细胞中CYP26A1上调)。
    • 通过碱基编辑实验验证,模型预测的HBF基因-68 A>G突变可使其表达提升30倍(编辑效率23.75%时)。

结论与意义
本研究通过uATAC-seq和NVWA-CRE模型,首次系统性揭示了脊椎动物调控序列的演化规律:功能模块的保守性高于序列本身,且基因组扩张主要通过增加调控元件数量而非改变其结构实现。科学价值上,该研究为理解基因调控的“语法规则”提供了范式;应用价值上,NVWA-CRE可精准指导非编码疾病的基因治疗设计(如镰刀型贫血症的HBF诱导突变筛选)。

研究亮点
1. 技术突破:uATAC-seq将单核检测通量提升至百万级,成本降低50%以上。
2. 模型创新:NVWA-CRE是首个实现跨物种单细胞染色质可及性预测的深度学习框架。
3. 发现调控元件的“双峰尺寸规律”(250 bp vs. 900 bp),挑战了传统峰值分析的固定窗口假设。

其他价值
研究数据已公开于Figshare(https://figshare.com/s/0dfc0ba97f54b429af69),模型代码开源(GitHub: https://github.com/ehcilc23/uuatac),为后续研究提供资源支持。


此报告全面覆盖了研究的创新性、方法论严谨性及跨学科意义,尤其强调了技术开发与理论发现的紧密结合。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com