基因组三维架构的多尺度序列建模:从千碱基到染色体水平
作者及机构
本研究由Jian Zhou(美国德克萨斯大学西南医学中心Lyda Hill生物信息学系)独立完成,以预印本形式发布于*BioRxiv*(2021年5月20日)。
学术背景
基因组的三维结构在基因表达调控、DNA复制与修复等关键生物学过程中发挥重要作用。尽管染色质区室(chromatin compartments)和拓扑关联域(TADs, topologically associating domains)等结构已被广泛研究,但其序列决定因素仍不明确。现有深度学习模型(如Akita和DeepC)仅能预测1Mb以内的局部互作,无法解析更大尺度的结构变异(SVs)影响。为此,作者开发了ORCA(Omniscale Resolution Chromatin Architecture),首个能从序列直接预测千碱基至全染色体尺度三维基因组架构的深度学习框架。
研究流程与方法
1. 模型设计与训练
- 多尺度编码-解码架构:ORCA采用分层编码器将输入序列(最长256Mb)转换为不同分辨率(4kb至1024kb)的表示,并通过级联解码器以“缩放”方式预测互作矩阵。编码器基于残差卷积网络,解码器结合2D卷积与距离编码,支持跨染色体互作预测。
- 数据来源:使用H1胚胎干细胞(H1-ESC)和人包皮成纤维细胞(HFF)的Micro-C数据(4D Nucleosome数据库),训练集覆盖除chr8-10外的所有染色体。
- 创新技术:
- 水平检查点(Horizontal Checkpointing):通过分块计算降低内存消耗,实现超长序列训练。
- 多任务学习:联合预测染色质开放度(DNase-seq)和组蛋白修饰(ChIP-seq),提升模型性能。
结构变异效应预测
虚拟遗传筛选
主要结果
1. 多尺度预测性能
- ORCA在1Mb-256Mb尺度均保持高相关性(H1-ESC: 0.78-0.84),显著优于Akita(局部互作预测提升19-30%)。
- 跨染色体互作预测相关性达0.46-0.74(Supplementary Figure 2)。
结构变异解析案例
序列机制发现
结论与价值
1. 科学意义
- ORCA首次实现全尺度基因组结构预测,填补了超大结构变异(如80Mb倒位)效应分析的空白。
- 揭示TSS序列是A区室的核心决定因素,挑战了传统认为区室完全依赖表观遗传标记的观点。
研究亮点
1. 方法创新:
- 256Mb超长序列建模技术突破GPU内存限制。
- 多尺度级联解码器实现“染色体级上下文”的局部互作预测。
2. 发现创新:
- 提出区室形成的序列依赖性新模型,解释最小长度(6-12kb)的实验观测。
- 鉴定细胞类型特异性TF基序对局部互作的调控作用。
其他价值
- 开源代码与在线服务器(https://orca.zhoulab.io)支持用户自定义分析,推动三维基因组学工具生态发展。
- 为相位分离(phase separation)等生物物理机制研究提供序列层面的新假说。