基于序列的基因组三维结构建模：从千碱基到染色体尺度

分享自：

基于序列的基因组三维结构建模：从千碱基到染色体尺度

生物物理及生物化学

生物医学工程

医学

遗传学

生命科学

期刊:biorxivDOI:10.1101/2021.05.19.444847

【点击此处】阅读全文、收藏及针对性提问

基因组三维架构的多尺度序列建模：从千碱基到染色体水平
作者及机构
 本研究由Jian Zhou（美国德克萨斯大学西南医学中心Lyda Hill生物信息学系）独立完成，以预印本形式发布于*BioRxiv*（2021年5月20日）。
学术背景
 基因组的三维结构在基因表达调控、DNA复制与修复等关键生物学过程中发挥重要作用。尽管染色质区室（chromatin compartments）和拓扑关联域（TADs, topologically associating domains）等结构已被广泛研究，但其序列决定因素仍不明确。现有深度学习模型（如Akita和DeepC）仅能预测1Mb以内的局部互作，无法解析更大尺度的结构变异（SVs）影响。为此，作者开发了ORCA（Omniscale Resolution Chromatin Architecture），首个能从序列直接预测千碱基至全染色体尺度三维基因组架构的深度学习框架。
研究流程与方法
 1. 模型设计与训练
 - 多尺度编码-解码架构：ORCA采用分层编码器将输入序列（最长256Mb）转换为不同分辨率（4kb至1024kb）的表示，并通过级联解码器以“缩放”方式预测互作矩阵。编码器基于残差卷积网络，解码器结合2D卷积与距离编码，支持跨染色体互作预测。
 - 数据来源：使用H1胚胎干细胞（H1-ESC）和人包皮成纤维细胞（HFF）的Micro-C数据（4D Nucleosome数据库），训练集覆盖除chr8-10外的所有染色体。
 - 创新技术：
 - 水平检查点（Horizontal Checkpointing）：通过分块计算降低内存消耗，实现超长序列训练。
 - 多任务学习：联合预测染色质开放度（DNase-seq）和组蛋白修饰（ChIP-seq），提升模型性能。
结构变异效应预测
测试集：16个实验验证的结构变异（0.3kb至80Mb），包括白血病相关的40.5Mb倒位和肢体畸形相关的1.8Mb重复。
 
评估指标：通过Pearson相关系数（0.72-0.84）和绝缘分数变化验证预测准确性。例如，2kb边界元件插入实验的预测与实测一致性达0.89（H1-ESC）。
 
虚拟遗传筛选
局部互作机制：通过多重体外诱变（multiplexed in silico mutagenesis）筛选10bp序列，发现CTCF基序主导强效应位点，而细胞类型特异性TF（如H1-ESC的POU5F1::SOX2、HFF的FOS::JUN）调控中等效应互作。
 
区室形成机制：基于粘连蛋白耗竭的HCT116细胞模型，发现：
 A区室：由转录起始位点（TSS）序列驱动，最短800bp即可激活。
 
B区室：需6-12kb的AT富集序列，且可通过随机置换被动形成。
 
主要结果
 1. 多尺度预测性能
 - ORCA在1Mb-256Mb尺度均保持高相关性（H1-ESC: 0.78-0.84），显著优于Akita（局部互作预测提升19-30%）。
 - 跨染色体互作预测相关性达0.46-0.74（Supplementary Figure 2）。
结构变异解析案例
KCNJ2-SOX9区域：性反转表型的0.2Mb重复通过增强子拷贝与SOX9的新互作驱动，而无表型的1.8Mb重复因新TAD边界隔离效应（图2b）。
 
WNT6-PAX3区域：缺失/倒位/重复通过不同机制（TAD融合、边界重组）导致IHH、PAX3与同一增强子的异位互作（图2c）。
 
序列机制发现
CTCF非依赖互作：Polycomb介导的互作和增强子-启动子互作被准确预测，且具有细胞类型特异性（Supplementary Figure 5-6）。
 
区室形成模型：提出“主动-被动”假说——A区室需TSS主动驱动，B区室为AT序列的默认状态（图4）。
 
结论与价值
 1. 科学意义
 - ORCA首次实现全尺度基因组结构预测，填补了超大结构变异（如80Mb倒位）效应分析的空白。
 - 揭示TSS序列是A区室的核心决定因素，挑战了传统认为区室完全依赖表观遗传标记的观点。
应用潜力
 变异效应预测：可快速评估未实验验证的SVs（如癌症基因组中的拷贝数变异）。
 
虚拟筛选平台：通过“基因组天文台”设计序列编辑实验，例如定向优化基因调控网络。
 
研究亮点
 1. 方法创新：
 - 256Mb超长序列建模技术突破GPU内存限制。
 - 多尺度级联解码器实现“染色体级上下文”的局部互作预测。
 2. 发现创新：
 - 提出区室形成的序列依赖性新模型，解释最小长度（6-12kb）的实验观测。
 - 鉴定细胞类型特异性TF基序对局部互作的调控作用。
其他价值
 - 开源代码与在线服务器（https://orca.zhoulab.io）支持用户自定义分析，推动三维基因组学工具生态发展。
 - 为相位分离（phase separation）等生物物理机制研究提供序列层面的新假说。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问