揭秘三维基因组预测新引擎:CHROMBUS-XMBD——图卷积模型驱动的染色质互作预测

研究背景与学科意义

在真核细胞内,染色质(Chromatin)的三维空间结构对于基因表达调控有着至关重要的作用。DNA通过复杂的折叠、环化及局部空间重构,使不同基因元件(如启动子promoter、增强子enhancer等)在空间上变得邻近,并实现精细的顺式(cis)调控。近年来,无论在发育生物学、疾病机理还是表观遗传学研究中,三维基因组(3D-genome)的动态结构都被反复证明与基因表达变化密切相关。

当前,捕捉基因组空间构象的实验方法主要包括3C、4C、5C、Hi-C、ChIA-PET、HiChIP等。然而,这些实验方法成本高昂、操作复杂,且常常受到生物材料来源、分辨率及信噪比等条件限制,难以为多样化的生物学问题或疾病研究大规模提供数据。与此同时,随着多组学数据的积累,尤其是DNA序列、表观遗传修饰、蛋白结合信息等的丰富,科学家们极为关注:“能否仅凭更易获得的染色质特征,便在计算机内‘虚构’出3D基因组的空间互作蓝图?”为此,大量基于机器学习与深度学习的预测模型应运而生。

已有如Akita、DeepC、Epiphany、C. Origami等方法,分别尝试用CNN(卷积神经网络)、LSTM、Transformer模型等,基于DNA序列及染色质特征,实现基因组互作的定量预测。然而,这些算法多存在如下局限:

  • 预测距离有限:大多仅能可靠地预测1~2兆碱基(Mb)以内的互作;
  • 模型泛化性不足:算法针对、依赖单一细胞系或特定样本,跨细胞/物种预测能力弱;
  • 卷积核固定窗口、Bin划分不贴合真实生物学分段:常以固定大小区块进行分割,而染色质在生物学上以非均一、CTCF结合位点为边界形成物理区域;
  • 可解释性弱:深度学习黑箱结构难以解释特征贡献。

为突破上述瓶颈,由厦门大学等单位科研团队开展了本项研究,开发了全新图卷积神经网络Chrombus-XMBD,致力于以高度自动化、泛化且可解释的方式,根据染色质表观特征,ab initio(从头)预测三维基因组的空间互作图谱(Contact Map)。

论文来源与作者信息

本项研究题为“CHROMBUS-XMBD: A Graph Convolution Model Predicting 3D-Genome from Chromatin Features”,发表在Briefings in Bioinformatics(2025年,26卷3期),作者团队成员包括Yuanyuan Zeng、Zhiyu You、Jiayang Guo等,核心通讯单位为厦门大学医学部、第一附属医院血液科、国家健康与医药数据科学研究院,并联合福建省细胞应激生物学重点实验室、福建省智慧城市感知与计算重点实验室等众多高水平研究机构。文章于2024年11月16日收稿,2025年3月26日接受,并通过Oxford University Press开放获取发表。

研究工作流程详解

1. 图模型化三维基因组——基础单位创新

研究突破以往用均匀分Bin分割基因组的方式,创新性选择CTCF(binding factor)结合峰为切割点,将染色质划分为功能性片段——每个片段定义为图的一个顶点(vertex),显著提高与真实生物学结构的吻合度。作者共从数据集中获得近四万至六万条CTCF分段,三星细胞系的Hi-C数据用以标注顶点间边属性(即相邻片段间的互作强度)。

每个片段节点用一个14维表观遗传特征向量表征,包括DNase-I可及性、POLR2A活性、启动子/增强子标记(H3K4me3、H3K27ac)、CTCF结合方向、相对定位等。

边权则根据真实Hi-C实验数据的处理结果获取,以平均片段间联系为分数。

2. 图卷积模型CHROMBUS架构——核心算法设计

CHROMBUS采用了三层动态边卷积(Dynamic Edge Convolution)多头自注意力机制(Multihead Attention)融合的图自动编码器(Graph Autoencoder, GAE)。其工作流程为:

  • 编码器端:14维特征经三层卷积传播与自注意力机制,生成32维隐变量嵌入(z),有效综合邻域上下文信息。
  • 边卷积与多头注意力:创新引入距离加权符号规则,将传统Transformer自注意力调整为适配基因组仿生长距离影响的特性(即距离越远,互动概率调整更小)。
  • 解码器端:内积输出预测的互作强度矩阵,为n*n的邻接矩阵,与真实标签Hi-C矩阵拟合。
  • 训练方法:将每条染色质染色体打乱分成128个CTCF片段的子图(batch),训练过程中随机连接边构建模拟的Erdős–Rényi随机图。
  • 损失函数:优化均方误差(MSE)以逼近真实Hi-C信号。

3. 严格的分组训练与交叉验证

作者以被广泛研究的人类淋巴母细胞系(GM12878)为例,22条常染色体循环作为独立测试集,剩余21条为训练集,22个模型循环建立。模型经过约400个epoch训练,多组实验数据涉及GM12878、K562、IMR90、HeLa-S3、HCT116、CH12六大细胞系,人鼠跨物种。

4. 多维度评测与特征可解释性分析

  • 性能评估:利用Pearson相关系数衡量预测分数与真实Hi-C互作分值的拟合优度,对比ROC/AUC曲线鉴别TAD(拓扑关联域)内外互作情况。
  • 特征贡献评析:采用GNNExplainer算法量化各输入特征的重要性,揭示高阶嵌入空间与生物学特征间的对应关系。
  • 泛化能力检验:模型在跨细胞系、跨物种(人-鼠)使用训练模型预测不同样本,验证其对不同样本的鲁棒性与泛用性。
  • 与已知生物事件比对:包括eQTL(表达数量性状基因座)、增强子-基因等功能性互作验证。

5. 与前沿模型的多重对比

分别与Epiphany、C. Origami、DynamicEdgeConv、GAT(图注意力网络)、GCN(图卷积网络)等现有算法综合对比,从短程(0-1Mb)、中程(1-2Mb)、长程(2Mb+)不同距离层级系统评估模型预测能力。

主要研究结果详解

  1. 模型拟合度优异:在全部22条染色体的交叉验证中,测试集相关系数(PCC)达到0.849~0.900,训练集0.880~0.893,表明出色的泛化能力。全数据集10万随机抽样对比Hi-C真实信号PCC为0.891(置信区间0.889-0.892)。
  2. 生物标准单元分割优势明显:CTCF为基础分割片段显著优于传统Bin划分,提升分辨精度与生物学灵敏性。
  3. 长距互作预测突破:在1-2Mb距离区间,CHROMBUS预测相关性为0.354~0.540,2Mb以上可达0.243~0.582,远超同类方法(Epiphany及C. Origami大致在0.24~0.48)。
  4. TAD及功能调控验证可靠:模型可高一致性复现已知TAD结构,区分TAD内外互作AUC分别为0.832(Hicexplorer)与0.861(Arrowhead法);对eQTL与增强子-基因调控事件的预测分数显著高于背景,且预测分数与已知交互位点富集程度强相关。
  5. 可解释性高:特征赋权分析显示,DNA可及性、CTCF结合、起始与终点位置、H3K4me3、H3K27ac、POLR2A为贡献突出的特征,并按互作距离展现各自主导性(如DNase-I和H3K27ac在短程互作贡献大,H3K4me3主导长程)。嵌入空间主成分分类显示不同片段类型关联不同表观特征及互作强度。
  6. 模型泛化性与鲁棒性出色:基于某一细胞系(如GM12878)训练的模型能高精度预测其他细胞系甚至小鼠细胞(如CH12)的互作模式(相关系数0.8~0.85),且在功能调控元素预测上稳定区分细胞特异性互作。
  7. 多头注意力机制与距离加权策略优化模型感知范围:设置不同注意头数与邻域窗口后,显著提升模型对长距离互作预测性能,并有效捕捉到TAD边界处的区域解偶特征。

结论、意义与应用价值

研究团队开发的CHROMBUS-XMBD为三维基因组预测领域带来革命性进步。它首次基于表观遗传学6大常规特征(DNA可及性、CTCF、RAD21、POLR2A、H3K4me3、H3K27ac),利用图卷积理念,深度融合自注意力机制与距离正则化,实现对基因组1Mb尺度至2Mb以上广泛范围的高质量交互预测。

该方法在以下几个方面具有突出应用与学术价值:

  • 应对实验数据匮乏:在样本有限、实验数据难以获取的现实背景下,为表观遗传调控、疾病致病机理、GWAS信号解释等方向提供虚拟三维互作图谱;
  • 跨平台跨物种适用:支持不同来源、不同分辨率、不同物种的染色体互作预测,为哺乳动物基因组结构演化、发育研究等拓展新视角;
  • 可解释且具生物学假设生成能力:嵌入空间与特征映射使得模型不仅是黑箱预测,更能反推主导调控因子,为下一步实验设计与基础研究给出有力参考;
  • 推动3D基因组解析自动化、智能化:大幅降低入门门槛,加速多学科融合和超大规模数据集的自动解读。

研究亮点与创新点

  • 以CTCF为单位的生物学驱动分段,首次让图结构构建符合生物真实折叠机制。
  • 首次突破2Mb长距染色体互作预测能力,远超过往算法应用极限。
  • 多模态输入、多头注意力与区间符号加权创新性结合,在保证复杂网络表达力的基础上大幅提升长距离预测与泛化性能。
  • 严密的六大细胞系—跨物种全流程评估验证模型鲁棒性,树立行业内可复制、泛用的标准范例。
  • 强可解释性与功能追溯能力,实现从模型输出到分子机制假设的自然转化。

其他有价值信息

  • 开源数据与代码:所有模型代码、训练参数及基于六大细胞系的训练数据已开源发布,见https://github.com/bioinfoheroes/chrombus-xmbd。
  • 可扩展性与适应性强:模型可通过迁移学习应对部分特征缺失或数据噪音,适合医疗健康数据、群体遗传学等多样化场景。
  • 研究团队声明无利益冲突,并得到了中国国家自然科学基金与重点研发计划等专项资助,显示了国内基础研究团队在三维基因组解析与人工智能交叉领域的强劲研发实力。
  • 学术前景与转化潜力广阔:为三维基因组学、转录调控、表观遗传等多学科交叉领域提供了强有力的技术支撑,也为疾病预测、定制化药物研发等临床转化应用铺设了坚实基础。

总结

CHROMBUS-XMBD以其新颖的图结构建模、兼容复杂生物学分隔的设计理念,极大提升了三维基因组空间互作的预测精度、距离覆盖和泛化适应性。该研究不仅为后续大数据时代三维基因组学研究提供了技术范式,也为精准医学、疾病易感、基因调控等领域的交叉创新注入了强大动力。