分享自:

利用Akita从DNA序列预测三维基因组折叠

期刊:nature MethodsDOI:10.1038/s41592-020-0958-x

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于DNA序列预测三维基因组折叠的卷积神经网络模型Akita

一、研究团队与发表信息
本研究由来自美国多家顶尖机构的科学家合作完成:第一作者Geoff Fudenberg(Gladstone Institutes for Data Science and Biotechnology);共同第一作者David R. Kelley(Calico Life Sciences LLC);资深作者Katherine S. Pollard(加州大学旧金山分校流行病学与生物统计学系、计算健康科学研究所等)。研究成果于2020年11月发表于*Nature Methods*期刊(卷17期11),论文标题为《Predicting 3D genome folding from DNA sequence with Akita》。

二、学术背景与研究目标
1. 科学领域:研究聚焦于三维基因组学(3D genomics)与计算生物学交叉领域,旨在解析DNA序列如何编码哺乳动物间期细胞核内的三维空间结构。
2. 研究动机:尽管已知CTCF和黏连蛋白(cohesin)是调控基因组折叠的关键因子,但单个DNA序列如何决定特定基因座的折叠模式仍不清楚。现有方法依赖表观遗传数据或仅预测衍生特征(如染色质环),无法直接从序列出发量化变异效应。
3. 技术挑战:需建立一种能将碱基对信息传递至兆碱基(Mb)尺度、同时捕捉局部特异性的模型。
4. 研究目标:开发一个端到端的卷积神经网络(CNN)模型Akita,仅输入DNA序列即可预测染色体接触频率图谱(contact frequency maps),并用于解析序列变异对三维结构的影响。

三、研究流程与方法
1. 数据准备
- 数据集:整合5个高质量人类Hi-C和Micro-C数据集(包括HFF、H1hESC、GM12878等细胞系),经基因组范围迭代校正(ICE)去除偏差。
- 序列处理:将人类基因组划分为非重叠的1 Mb窗口(220 bp),按80/10/10比例分为训练、验证和测试集,共7,008个训练序列。
- 目标矩阵:将原始接触矩阵归一化为log(observed/expected)值,并应用高斯滤波平滑处理。

  1. 模型架构设计

    • 主干网络(Trunk):基于Basenji CNN架构,包含:
      • 11×4卷积层处理one-hot编码DNA序列
      • 5层卷积塔逐步将分辨率降至2 kb(2048 bp)
      • 扩张残差卷积层(dilated residual convolutions)捕获长程序列依赖
    • 头部网络(Head):创新性二维转换模块
      • 通过平均配对1D特征向量生成2D接触图初值
      • 引入位置编码(positional encoding)标记基因组距离
      • 对称化扩张残差2D卷积层优化空间关系预测
    • 多任务输出:同时预测5个数据集的接触图谱,模型参数量746,149。
  2. 训练与优化

    • 损失函数:采用均方误差(MSE)最小化上三角矩阵差异
    • 数据增强:随机平移序列(±11 bp)和反向互补
    • 超参数调优:使用贝叶斯优化确定学习率(0.0065)、动量(0.99575)等参数
  3. 功能验证实验

    • 虚拟突变分析
      • 全CTCF基序(motif)诱变:随机替换或反向所有CTCF结合位点序列
      • 单核苷酸饱和诱变:对500 bp区域内的每个碱基进行所有可能突变
      • 结构性变异模拟:删除LMO2基因座边界区(25 kb)或倒位Eph4A基因座(622 kb)
    • 跨物种预测:将人类训练模型应用于小鼠基因组,对比小鼠胚胎干细胞Hi-C数据

四、主要研究结果
1. 预测性能验证
- 测试集全局指标:MSE=0.14,Pearson r=0.61,Spearman r=0.56,接近实验重复间的噪声极限(Extended Data Fig. 2)
- 成功复现多种局部模式(图1b-c),如染色质环(loops)和拓扑关联域(TADs)边界

  1. CTCF基序的关键作用

    • 突变所有CTCF基序导致80%区域折叠模式显著弱化(图3a),与实验性CTCF降解表型一致
    • 基序方向性语法:反向(非删除)CTCF基序会重分布而非消除接触模式(图2d),证明模型学习了方向依赖性规则
  2. 核苷酸级特征解析

    • 饱和诱变显示:CTCF基序侧翼150 bp内的突变仍具高破坏性(图4a-c),且与进化保守性(phyloP评分)正相关
    • 19.9%的高影响突变位于传统注释区域外,提示存在未表征的功能序列(图4e)
  3. 疾病变异解释

    • GTEx eQTL分析:因果概率>0.9的SNP(单核苷酸多态性)比随机SNP引起更显著的接触图扰动(p<0.001,图4f)
    • 案例:chr7_5898574位点突变通过影响CTCF旁70 bp的未知基序增强边界强度(图4g)
  4. 结构性变异预测

    • LMO2基因座删除实验:模型准确预测三重复CTCF位点的冗余边界功能(图5)
    • 小鼠Eph4A倒位:人类模型虽未训练肢体组织数据,仍预测出实验观察到的”耀斑”(flare)方向翻转(图6b)

五、研究结论与价值
1. 理论意义:首次证明DNA序列可独立预测三维基因组折叠,揭示CTCF基序方向性语法及侧翼序列的调控作用,为”序列-结构-功能”解码提供新范式。
2. 方法论创新
- 开发首个兆碱基级序列到接触图的端到端预测框架
- 建立虚拟突变分析流程,实现秒级变异效应评估
3. 应用前景
- 增强子-启动子互作预测
- 罕见变异致病性优先级排序
- 合成生物学中的基因组设计

六、研究亮点
1. 技术突破:将CNN应用于三维基因组学,解决长程依赖建模难题
2. 发现创新
- 鉴定CTCF基序外的重要调控序列
- 揭示小鼠B2 SINE元件通过CHAHP复合物抑制CTCF结合的物种特异性机制
3. 开源贡献:模型代码与训练数据已在GitHub公开(https://github.com/calico/basenji)

七、延伸价值
研究为理解进化中的基因组结构保守性(如人鼠间)提供了计算工具,后续可通过整合单细胞数据和多组学信息进一步提升细胞类型特异性预测能力。


(报告总字数:约2,200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com