EagleC：一种基于深度学习和集成学习的框架，用于从批量及单细胞接触图中检测全范围结构变异

分享自：
EagleC：一种基于深度学习和集成学习的框架，用于从批量及单细胞接触图中检测全范围结构变异

人工智能
遗传学
期刊:Science AdvancesDOI:10.1126/sciadv.abn9215
【点击此处】阅读全文、收藏及针对性提问
EAGLEC：一种基于深度学习和集成学习的框架，用于从群体及单细胞Hi-C数据中检测全范围的结构变异
一、研究作者、单位及发表情况
本研究由美国西北大学费恩伯格医学院生物化学与分子遗传学系的 Xiaotao Wang、Yu Luan 以及通讯作者 Feng Yue* 共同完成。研究论文于2022年6月15日发表在期刊 Science Advances 上，文章编号为 eabn9215。
二、学术背景与研究目的
本研究属于癌症基因组学、三维（3D）基因组学和生物信息学交叉领域。结构变异（Structural Variations， SVs），包括缺失、倒位、重复和易位等，是驱动肿瘤发生和其他疾病的重要遗传改变。它们可以直接导致肿瘤抑制基因失活或原癌基因激活，并促进致癌融合基因的形成，近年来还发现其可通过“增强子劫持”（enhancer hijacking）机制调控致癌基因表达。因此，全面、准确地检测SV对于理解癌症机制和开发靶向治疗至关重要。
然而，全基因组范围的SV检测仍具挑战性。传统核型分析通量低、分辨率差；微阵列技术难以检测拷贝数中性事件（如平衡易位和倒位）；短读长全基因组测序（Whole-Genome Sequencing， WGS）在重复区域的检测存在图谱定位难题；长读长测序（如纳米孔测序）虽部分缓解了此问题，但错误率相对较高且需要深度测序覆盖。
近年来，Hi-C等染色质构象捕获技术，作为研究三维基因组结构的主要方法，也被证明可用于系统性检测SV。其原理在于：SV会破坏原有基因组顺序，在断点处形成新的空间邻近性，从而在Hi-C接触矩阵上产生异常的高频相互作用信号块。相比于WGS和纳米孔测序需要跨越断点的测序读段，Hi-C仅需断点邻近区域可定位，即可检测SV，因此所需测序深度更低，且在重复区域检测方面具有独特优势。
尽管已有HicTrans、Hi-C BreakFinder和HiNT-TL等方法利用Hi-C数据检测SV，但这些方法均存在显著局限性：HicTrans和HiNT-TL只能检测染色体间易位，而Hi-C BreakFinder虽能检测染色体内SV，但仅限于大于1兆碱基（Mb）的长范围事件，且所有方法的分辨率均不够理想，无法有效区分SV信号与拓扑关联域、染色质环等正常的短程染色质互作模式。因此，开发一种能够利用Hi-C数据进行高分辨率、全范围（包括短程 Mb）SV检测的新算法，成为该领域的迫切需求。
本研究旨在填补这一空白，开发一个名为EAGLEC的深度学习框架，以实现在多种染色质互作数据平台上，对从短程到长程的所有类型SV进行高精度预测，并将其应用于癌症样本和单细胞Hi-C数据分析，以探索SV异质性和其在三维基因组背景下的形成规律。
三、研究详细工作流程
本研究的工作流程是一个从算法开发、训练、优化到广泛验证和应用的系统性工程。
1. 数据准备与训练集构建： 研究团队首先收集了8个癌细胞系（A549， Caki2， K562， LNCaP， NCI-H460， Panc-1， SK-N-MC， T47D）的高置信度SV数据集，这些SV由WGS和光学图谱（Bionano）两种方法共同验证。以此为基础，提取Hi-C接触矩阵中围绕这些SV断点的21x21子矩阵作为正训练样本。为了解决原始数据集中不同SV类型（四种断点连接方向：++， +-， -+， –）和不同大小范围（短程与长程）样本数量不均衡的问题，他们提出了一种基于泊松分布的数据增强算法，生成了大量模拟样本，确保每个类别在训练集中都有相似数量的代表。
同时，为了训练模型区分真实的SV信号与由正常三维基因组特征（如染色质环、A/B区室边界）引起的假阳性信号，研究从正常细胞系GM12878的Hi-C图中，随机采样了相似数量的染色体内和染色体间子矩阵，分别标记为“染色体内阴性”和“染色体间阴性”样本。此外，还将癌细胞Hi-C数据中位于SV信号块内但不与断点重叠的矩阵作为额外的阴性数据集。
2. EAGLEC深度学习框架设计： EAGLEC的核心是将SV检测问题转化为一个多标签图像分类问题。其工作流包括预处理、卷积神经网络（CNN）模型构建、迭代学习和集成学习四个关键步骤。 * 预处理： 对于染色体内样本，为消除距离效应（接触频率随基因组距离增加而衰减）对短程SV检测的干扰，EAGLEC使用距离平均信号进行校正。随后，每个输入矩阵经过二维高斯滤波以减少噪声，并进行最小-最大缩放归一化。 * CNN模型架构： 输入为21x21的灰度图像。网络结构包括两个卷积层（分别使用32和64个3x3滤波器），每个卷积层后接一个2x2最大池化层。然后将特征图展平，通过两个全连接层（第一个有512个隐藏单元，使用ReLU激活，并接一个丢弃率为0.5的Dropout层以防过拟合；第二个为输出层），最终使用Sigmoid激活函数输出六个标签（四种正标签和两种负标签）的概率。 * 迭代学习： 这是提高模型特异性的关键。每轮训练后，将模型应用于正常细胞系GM12878的Hi-C数据进行全基因组预测。由于GM12878核型正常，所有预测均为假阳性。随机选取这些假阳性预测作为新的负样本加入下一轮训练。此过程反复进行直至收敛，使模型能有效学习并排除由正常基因组特征产生的类似SV的模式。 * 集成学习： 为优化灵敏度和特异性，研究训练了50个独立的CNN模型，每个模型使用相同的迭代方法但随机初始化和不同的训练子集。在预测新样本时，最终概率得分为50个模型结果的平均值。当任一正标签的概率超过预设阈值时，该像素点被报告为SV断点候选。研究还为不同测序深度训练了专门的模型系列。
3. 系统性能评估与比较： 研究在多个独立数据集上对EAGLEC进行了全面评估。首先，在拥有Hi-C、WGS和纳米孔数据的三个乳腺癌细胞系（BT-474， HCC1954， MCF7）中进行基准测试，将EAGLEC与现有的HicTrans、HiNT-TL和Hi-C BreakFinder方法进行直接比较。评估指标包括精确率、召回率以及预测SV的分辨率。同时，通过下采样Hi-C数据，评估了不同测序深度下EAGLEC的性能，并通过混合癌细胞与正常细胞Hi-C数据模拟了不同肿瘤异质性水平下的检测能力。
4. 跨平台应用验证： 为证明EAGLEC的通用性，研究团队将其应用于其他3C衍生技术产生的数据上，包括CTCF ChIA-PET、Pol2 ChIA-PET、HiChIP和捕获Hi-C。他们直接将基于Hi-C数据训练的EAGLEC模型应用于这些平台的接触矩阵，评估其预测SV的准确性和与Hi-C预测结果的重叠度。特别地，在小鼠的捕获Hi-C数据集中，测试了EAGLEC对已知工程化SV（如不同大小的重复和倒位）的检测能力。
5. 大规模癌症样本分析： 利用训练好的模型，研究团队对来自105个癌细胞系或原发肿瘤的91个Hi-C数据集和25个HiChIP/ChIA-PET数据集进行了SV预测。如果同一样本有多个数据集，则合并结果以获得更全面的SV注释。总共预测了5620个SV。在此基础上，他们结合正常细胞/组织的三维基因组特征（A/B区室、拓扑关联域TAD），分析了SV在基因组上的分布规律及其与三维染色质结构的关联。例如，检查了SV是否更倾向于发生在相同区室（A-A/B-B）之间，以及SV断点是否更靠近TAD边界。此外，还识别了在不同样本中受短程SV（特别是缺失和重复）反复影响的基因。
6. 单细胞Hi-C数据分析： 为适应单细胞Hi-C数据接触信息稀疏的特点，研究团队使用下采样至相应测序深度的数据重新训练了适用于500 kb分辨率的EAGLEC模型。然后，将其应用于已发表的Hap1和K562慢性髓系白血病细胞系的单细胞Hi-C数据，以检测其中已知的染色体间易位。研究还通过合并不同数量的单细胞数据，探索了准确预测SV所需的最低接触对数量下限。
四、主要研究结果
1. EAGLEC成功实现高分辨率全范围SV检测： EAGLEC能够准确预测多种类型的SV，包括短至35-75 kb的缺失、约300 kb的重复、90 kb的倒位，以及长范围的重复和染色体间（交互与非交互）易位。其预测分辨率可达5 kb，显著高于现有方法（通常为10-100 kb）。在BT-474等细胞系的基准测试中，EAGLEC预测的SV数量是Hi-C BreakFinder的2.4至4.8倍，同时精确率显著更高（例如在BT-474中，EAGLEC为84.8%，Hi-C BreakFinder为55.0%）。即使允许100 kb的坐标误差，Hi-C Breakfinder的验证率提升有限，而EAGLEC的验证率保持稳定，表明EAGLEC能更精确定位断点。
2. 性能全面超越现有方法： 在与所有现有方法的直接比较中，EAGLEC在精确率和召回率上均表现最优。对于染色体间易位，EAGLEC的召回率高于HiNT-TL，而精确率远高于预测大量冗余假阳性的HicTrans。在对26个额外癌症样本的分析中，EAGLEC在所有样本中的召回率和精确率均显著高于Hi-C BreakFinder。值得注意的是，尽管短程SV（ Mb）曾被认检测困难，但EAGLEC预测的此类SV占总数的39.5%，且其验证准确率甚至高于长程SV和易位。
3. 发现WGS和纳米孔测序遗漏的融合基因： 研究发现，一部分EAGLEC预测的SV未被匹配样本的WGS和纳米孔测序检测到，但这些SV断点位于基因内部，且对应的RNA-seq数据利用Arriba软件预测出了相应的融合基因。例如，在MCF7细胞中，EAGLEC检测到ATXN7和BCAS3基因内的断点，而RNA-seq也预测了这两个基因的融合。这表明，即使在测序深度远低于WGS和纳米孔的情况下，基于Hi-C的EAGLEC也能独特地发现一些涉及融合基因的SV。这些融合基因在癌细胞中的表达水平显著高于无此融合的非恶性细胞。
4. 成功应用于多种3C技术平台： EAGLEC模型展现出良好的可迁移性。在MCF7细胞中，直接应用Hi-C训练的模型于CTCF ChIA-PET和Pol2 ChIA-PET数据，预测出与Hi-C结果高度重叠的SV集合，且精确率相当（CTCF ChIA-PET 65.5%， Pol2 ChIA-PET 68.2%， Hi-C 73.8%）。在10个有匹配WGS数据的HiChIP/ChIA-PET数据集中，EAGLEC的性能也显著优于Hi-C BreakFinder。在小鼠的捕获Hi-C数据中，EAGLEC准确预测了所有已知的工程化SV，且未产生额外假阳性，证明了其高灵敏度和特异性。
5. 揭示SV与三维基因组架构的关联： 对105个癌症样本的泛癌分析揭示了SV分布的规律。与随机对照相比，SV更倾向于发生在开放的A区室之间，而较少发生在B区室之间或A-B区室之间。SV断点显著更靠近TAD边界，这与DNA双链断裂易发生在染色质环锚定区的发现一致。约10%的SV发生在两个TAD边界之间，37.5%发生在一个TAD边界与TAD内部区域之间。此外，与癌症相关基因的转录起始位点（TSS）在SV断点相关的TAD边界处特异性富集，提示SV破坏TAD边界可能是致癌基因失调的重要机制。分析还识别出受短程SV反复影响的基因，其中缺失区域多包含已知的肿瘤抑制基因（如CDKN2A/2B， WWOX），而重复区域则常包含原癌基因（如MYC， CD44）。
6. 实现单细胞水平SV检测： EAGLEC能够从测序深度极低（中位数仅数千至数万接触对）的单细胞Hi-C数据中，预测出已知的染色体间易位（如Hap1和K562细胞中的chr9-chr22易位）。通过合并多个单细胞的数据，研究发现当合并细胞数达到25个（约168万接触对）时，预测的F1分数达到平台期（接近1）。虽然目前由于单细胞数据过于稀疏，合并多个细胞是获得准确预测的必要手段，但这证明了EAGLEC在单细胞分辨率下研究SV异质性的潜力。
五、研究结论与价值
本研究成功开发了EAGLEC，一个结合深度学习和集成学习策略的通用框架，首次实现了利用Hi-C及其他3C衍生技术数据，对全范围（包括短程 Mb）SV进行高分辨率、高精度的检测。EAGLEC不仅技术性能全面超越现有方法，还能独特地发现被传统测序技术遗漏的、具有潜在生物学意义的融合基因事件。该框架具有基因组无关性，可应用于人类以外的物种。
研究的科学价值在于：第一，极大地拓展和深化了Hi-C数据在基因组变异检测领域的应用范围和能力；第二，通过对大量癌症样本的分析，系统揭示了SV的形成和分布与三维染色质结构（区室、TAD）的密切关联，为理解SV在癌症发生中的作用提供了新的三维视角；第三，首次展示了在单细胞Hi-C数据中检测SV的可行性，为在单细胞水平研究肿瘤内SV异质性和克隆演化开辟了新途径。
其应用价值体现在：EAGLEC可作为一种强大、经济的补充工具，与WGS和长读长测序协同，用于癌症基因组学研究和临床基因组分析，更全面地刻画癌症的基因组不稳定性。同时，它也可用于评估不同物种的基因组组装质量。
六、研究亮点
方法学创新： 首次将深度学习（CNN）与集成学习策略系统性地应用于Hi-C数据的SV检测，通过创新的数据增强、迭代学习和集成学习流程，成功解决了短程SV检测和区分正常染色质特征的难题。
性能突破： 实现了对全范围SV（低至35 kb）的高分辨率（5 kb）、高精度检测，在多个基准测试和跨平台验证中，性能显著优于所有现有方法。
发现能力独特： 能够检测到被深度WGS和纳米孔测序遗漏的融合基因，凸显了Hi-C技术在检测特定类型SV方面的独特优势。
通用性强： 证明同一套框架/模型可广泛应用于Hi-C、ChIA-PET、HiChIP、捕获Hi-C乃至单细胞Hi-C等多种染色质互作数据平台，展现了其作为通用SV检测工具的潜力。
生物学见解深刻： 通过对百余个癌症样本的大规模分析，提供了关于SV偏好发生于特定三维基因组环境（如A区室之间、TAD边界附近）的系统性证据，深化了对SV形成机制及其功能影响的理解。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问