该文档属于类型a,即报告了一项单篇原创研究的学术论文。以下是对该研究的详细学术报告:
本研究的主要作者包括Xionghui Zhou、Haizi Zheng、Hailu Fu、Kelsey L. Dillehay McKillip、Susan M. Pinney和Yaping Liu。研究团队来自多个机构,包括辛辛那提儿童医院医学中心、辛辛那提大学癌症中心等。该研究于2022年发表在期刊Genome Medicine上,文章标题为“CRAG: de novo characterization of cell-free DNA fragmentation hotspots in plasma whole-genome sequencing”。
本研究的主要科学领域是液体活检(liquid biopsy)和癌症早期检测。循环游离DNA(cell-free DNA, cfDNA)是患者血浆中的一种非侵入性生物标志物,其片段化模式在癌症中发生了改变,尤其是在早期癌症中。然而,目前对cfDNA片段化模式的研究主要集中在已知的调控元件(如转录起始位点TSS和转录因子结合位点TFBS),这限制了我们对基因组范围内片段化异常的理解。因此,本研究旨在开发一种新的计算方法,通过全基因组测序数据,从头(de novo)识别cfDNA的片段化热点(fragmentation hotspots),并探索其在早期癌症诊断中的应用。
本研究包括以下几个主要步骤:
数据集与样本队列
研究使用了多个公开数据集,包括来自健康个体和癌症患者的cfDNA全基因组测序(WGS)数据。具体样本包括:
数据预处理
使用Trimmomatic进行接头修剪,BWA-MEM进行序列比对,Samblaster去除PCR重复片段。仅保留高质量的常染色体读段,并排除长度小于50bp或大于1000bp的片段。
片段化热点识别
研究者开发了一种名为CRAG的计算方法,通过加权片段覆盖率(fragment coverage)和片段大小(fragment size)来识别cfDNA片段化热点。具体步骤包括:
开放染色质区域预测
使用cfDNA片段化水平预测开放染色质区域,并通过随机森林模型(Random Forest Model)进行验证。研究者使用了已知的开放染色质区域和封闭染色质区域作为基准数据集。
癌症早期检测
通过十折交叉验证(10-fold cross-validation),使用支持向量机(SVM)模型对癌症和健康样本进行分类。研究者使用片段化热点区域的IFS信号作为特征,评估了模型在多种癌症类型中的分类性能。
组织来源预测
在癌症样本中,研究者进一步使用片段化热点区域的IFS信号预测癌症的组织来源。通过计算每种癌症类型的质心(centroid),并应用决策树模型(Decision Tree Model)进行最终的分类。
片段化热点的识别与特征
研究者在健康个体的cfDNA中识别了138,938个片段化热点,这些热点在开放染色质区域和活跃的基因调控元件中高度富集。特别是,热点在CpG岛(CpG island)启动子和CTCF绝缘子附近显著富集,而在非CpG岛启动子和转录终止位点(TTSS)附近则未观察到富集。
早期癌症中的片段化异常
在早期肝细胞癌(HCC)中,研究者观察到片段化热点普遍存在低片段化(hypo-fragmentation)现象。这些低片段化热点与癌症干细胞相关的基因和通路显著相关,如“细胞粘附”和“信号通路调控干细胞多能性”等。
癌症早期检测与组织来源预测
研究者在多种癌症类型中验证了片段化热点在癌症早期检测中的性能。例如,在结直肠癌、乳腺癌和胃癌中,模型在100%特异性下的敏感性分别达到95%、93%和90%。此外,片段化热点还能有效预测癌症的组织来源,平均准确率达到80%。
本研究开发了一种新的计算方法CRAG,通过全基因组测序数据从头识别cfDNA片段化热点,并揭示了其在癌症早期检测和组织来源预测中的潜力。该方法不仅扩展了我们对cfDNA片段化模式的理解,还为癌症的早期诊断提供了新的非侵入性工具。
研究者还发现,片段化热点在转座子(transposable elements)的3’端高度富集,这与局部DNA甲基化水平的变化相关,提示了cfDNA片段化过程的未知机制。这一发现为进一步研究cfDNA的生物学功能提供了新的方向。
本研究不仅为癌症早期检测提供了新的技术手段,还深入揭示了cfDNA片段化模式在基因调控中的重要作用,具有重要的科学和应用价值。