分享自:

血浆全基因组测序中细胞游离DNA断裂热点的新表征方法

期刊:Genome MedicineDOI:10.1186/s13073-022-01141-8

该文档属于类型a,即报告了一项单篇原创研究的学术论文。以下是对该研究的详细学术报告:

作者与期刊信息

本研究的主要作者包括Xionghui Zhou、Haizi Zheng、Hailu Fu、Kelsey L. Dillehay McKillip、Susan M. Pinney和Yaping Liu。研究团队来自多个机构,包括辛辛那提儿童医院医学中心、辛辛那提大学癌症中心等。该研究于2022年发表在期刊Genome Medicine上,文章标题为“CRAG: de novo characterization of cell-free DNA fragmentation hotspots in plasma whole-genome sequencing”。

学术背景

本研究的主要科学领域是液体活检(liquid biopsy)和癌症早期检测。循环游离DNA(cell-free DNA, cfDNA)是患者血浆中的一种非侵入性生物标志物,其片段化模式在癌症中发生了改变,尤其是在早期癌症中。然而,目前对cfDNA片段化模式的研究主要集中在已知的调控元件(如转录起始位点TSS和转录因子结合位点TFBS),这限制了我们对基因组范围内片段化异常的理解。因此,本研究旨在开发一种新的计算方法,通过全基因组测序数据,从头(de novo)识别cfDNA的片段化热点(fragmentation hotspots),并探索其在早期癌症诊断中的应用。

研究流程

本研究包括以下几个主要步骤:

  1. 数据集与样本队列
    研究使用了多个公开数据集,包括来自健康个体和癌症患者的cfDNA全基因组测序(WGS)数据。具体样本包括:

    • 健康个体(n=32)、肝细胞癌(HCC,n=90)、慢性乙型肝炎(HBV,n=67)和肝硬化(n=36)样本。
    • 来自Cristiano等人研究的423个样本,涵盖健康个体(n=215)和多种癌症类型(乳腺癌、胆管癌、结直肠癌等)。
    • 内部验证样本,包括乳腺癌和肝癌患者的血浆样本(n=33)及其匹配的健康对照(n=33)。
  2. 数据预处理
    使用Trimmomatic进行接头修剪,BWA-MEM进行序列比对,Samblaster去除PCR重复片段。仅保留高质量的常染色体读段,并排除长度小于50bp或大于1000bp的片段。

  3. 片段化热点识别
    研究者开发了一种名为CRAG的计算方法,通过加权片段覆盖率(fragment coverage)和片段大小(fragment size)来识别cfDNA片段化热点。具体步骤包括:

    • 使用200bp的滑动窗口扫描基因组,计算每个窗口的整合片段化分数(Integrated Fragmentation Score, IFS)。
    • 使用负二项分布模型(Negative Binomial Model)来识别显著的热点区域,并进行多重假设校正(Benjamini-Hochberg方法)。
    • 通过局部加权回归(LOESS)校正GC含量偏差,并合并相邻的热点区域。
  4. 开放染色质区域预测
    使用cfDNA片段化水平预测开放染色质区域,并通过随机森林模型(Random Forest Model)进行验证。研究者使用了已知的开放染色质区域和封闭染色质区域作为基准数据集。

  5. 癌症早期检测
    通过十折交叉验证(10-fold cross-validation),使用支持向量机(SVM)模型对癌症和健康样本进行分类。研究者使用片段化热点区域的IFS信号作为特征,评估了模型在多种癌症类型中的分类性能。

  6. 组织来源预测
    在癌症样本中,研究者进一步使用片段化热点区域的IFS信号预测癌症的组织来源。通过计算每种癌症类型的质心(centroid),并应用决策树模型(Decision Tree Model)进行最终的分类。

主要结果

  1. 片段化热点的识别与特征
    研究者在健康个体的cfDNA中识别了138,938个片段化热点,这些热点在开放染色质区域和活跃的基因调控元件中高度富集。特别是,热点在CpG岛(CpG island)启动子和CTCF绝缘子附近显著富集,而在非CpG岛启动子和转录终止位点(TTSS)附近则未观察到富集。

  2. 早期癌症中的片段化异常
    在早期肝细胞癌(HCC)中,研究者观察到片段化热点普遍存在低片段化(hypo-fragmentation)现象。这些低片段化热点与癌症干细胞相关的基因和通路显著相关,如“细胞粘附”和“信号通路调控干细胞多能性”等。

  3. 癌症早期检测与组织来源预测
    研究者在多种癌症类型中验证了片段化热点在癌症早期检测中的性能。例如,在结直肠癌、乳腺癌和胃癌中,模型在100%特异性下的敏感性分别达到95%、93%和90%。此外,片段化热点还能有效预测癌症的组织来源,平均准确率达到80%。

结论

本研究开发了一种新的计算方法CRAG,通过全基因组测序数据从头识别cfDNA片段化热点,并揭示了其在癌症早期检测和组织来源预测中的潜力。该方法不仅扩展了我们对cfDNA片段化模式的理解,还为癌症的早期诊断提供了新的非侵入性工具。

研究亮点

  1. 创新性方法:CRAG是首个通过加权片段覆盖率和片段大小来识别cfDNA片段化热点的方法,突破了以往仅依赖已知调控元件的研究局限。
  2. 多癌症类型验证:研究在多种癌症类型中验证了片段化热点的分类性能,尤其是在早期癌症中表现出色。
  3. 组织来源预测:片段化热点不仅能用于癌症诊断,还能有效预测癌症的组织来源,为临床治疗提供了重要参考。

其他有价值的内容

研究者还发现,片段化热点在转座子(transposable elements)的3’端高度富集,这与局部DNA甲基化水平的变化相关,提示了cfDNA片段化过程的未知机制。这一发现为进一步研究cfDNA的生物学功能提供了新的方向。

本研究不仅为癌症早期检测提供了新的技术手段,还深入揭示了cfDNA片段化模式在基因调控中的重要作用,具有重要的科学和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com