分享自:

基于中国嘉道理生物库研究构建的高分辨率单倍型参考面板

期刊:nucleic acids researchDOI:10.1093/nar/gkad779

中国嘉道理生物银行(CKB)高分辨率单倍型参考面板的构建与应用研究

作者及发表信息
本研究的通讯作者包括北京大学的李立明教授(Liming Li)、BGI研究所的金鑫研究员(Xin Jin)、北京大学的吕筠教授(Jun Lv)以及BGI研究所的朱欢欢研究员(Huanhuan Zhu)。合作团队来自北京大学、中国医学科学院、牛津大学、BGI研究所等十余家机构。研究成果于2023年10月23日以开放获取形式发表于Nucleic Acids Research(2023年51卷,11770–11782页),标题为《A high-resolution haplotype-resolved reference panel constructed from the China Kadoorie Biobank study》。


学术背景
精准医学(precision medicine)依赖于高精度的个体基因型数据,但全基因组测序(whole-genome sequencing, WGS)因成本限制难以大规模应用。基因型填充(genotype imputation)技术通过参考面板(reference panel)将微阵列数据(microarray data)转化为全基因组数据,是解决这一问题的关键。然而,现有国际参考面板(如1000 Genomes Project、TOPMed)对东亚人群(尤其是中国人群)的代表性不足。中国嘉道理生物银行(CKB)作为全球最大的中国人群前瞻性队列,拥有超过50万人的生物样本和临床数据,但此前缺乏高密度遗传数据支持。本研究旨在基于CKB队列构建中国人群特异的高分辨率单倍型参考面板,并评估其性能。


研究流程与方法
1. 样本与测序
- 研究对象:10,000名中国个体,包括9,950名CKB队列中的卒中病例和50名来自1000 Genomes Project的中国汉族样本。
- 测序技术:采用MGI DNBSEQ平台进行中深度(平均15.41×)全基因组测序(paired-end 100 bp,插入片段350 bp)。

  1. 变异检测与质量控制

    • 数据预处理:使用SOAPnuke过滤低质量读段,Sentieon BWA-MEM算法比对至GRCh38参考基因组。
    • 变异调用:采用Sentieon DNASeq流程(替代GATK),通过局部重比对和碱基质量校正(BQSR)提高准确性。
    • 样本筛选:剔除污染样本(VerifyBAMID Freemix < 0.03)、重复率>5%或平均深度<10×的样本,最终保留9,964个样本。
  2. 参考面板构建

    • 单倍型定相(phasing):使用Beagle v5.2对基因型进行统计估计,保留第二度以内亲缘关系样本以优化单倍型准确性。
    • 注释与过滤:通过Ensembl VEP工具标注变异功能,结合ClinVar数据库筛选致病性变异,最终生成包含1.297亿变异(1.137亿SNP和1,601万indel)的CKB参考面板。
  3. 性能评估

    • 对比面板:与国际面板(TOPMed、1000 Genomes Project)及中国面板(ChinaMAP、NyuWa)比较。
    • 评估指标
      • 填充数量:CKB面板在中等质量变异(信息分数0.4–0.8)数量上领先(1,086万),高质量变异(信息分数>0.8)占比84.63%。
      • 准确性:基于50例CKB样本的微阵列数据填充后,与高深度WGS(44.14×)对比,Pearson相关系数(r²)达0.961,灵敏度(sensitivity)为95.57%,精确度(precision)为97.98%,均优于其他面板。
  4. 大规模数据填充与应用

    • 100,706例微阵列数据填充:并行分块处理,生成迄今最大规模的中国人群全基因组数据(4,261万中等质量变异+1,745万高质量变异),填充后r²提升至0.972。
    • GWAS分析验证:以身高为表型,填充后测试SNP数量从303万增至920万,显著关联位点从119个增至147个,其中26个新增位点已被既往研究证实。
  5. 在线服务平台
    开发免费填充服务器(https://db.cngb.org/imputation/),支持CKB和1kgp面板,提供GRCh37/38基因组版本及多种算法选择。


主要结果与逻辑关联
- 变异谱特征:CKB面板中44.1%的SNP和33.8%的indel为新型变异(novel variants),罕见变异(MAF < 0.5%)占主导。功能注释显示55%为内含子变异,26%位于基因间区,9个常见致病性变异与疾病(如家族性高胆固醇血症、肝癌)相关。
- 性能优势:CKB面板在填充中国人群数据时,其准确性(r²)和变异数量均优于TOPMed和ChinaMAP,尤其在低频变异(1% < MAF ≤ 5%)填充中表现突出。
- GWAS验证:填充数据使身高关联分析统计效能显著提升,新增的28个位点中92.9%与已知基因(如CHD8、ZBTB20)相符,证实了填充数据的可靠性。


研究价值与意义
1. 科学价值:CKB面板填补了中国人群高精度参考面板的空白,为东亚人群遗传研究提供了关键资源。
2. 应用价值
- 推动中国人群复杂疾病(如卒中、糖尿病)的遗传机制解析。
- 支持多基因风险评分(polygenic risk score)在精准医学中的应用。
3. 数据共享:面板及填充数据已公开于中国国家基因库(CNGBdb,编号CNP0003405),采用受控访问模式。


研究亮点
1. 样本规模与代表性:基于全球最大中国人群队列(CKB),覆盖10个地理区域,样本量远超同类中国面板(如NyuWa的2,902例)。
2. 方法创新
- 采用Sentieon DNASeq流程,较GATK提速30倍且保持同等精度。
- 保留亲缘样本提升单倍型定相准确性,借鉴1000 Genomes Project最新策略。
3. 资源扩展性:配套开发的在线服务器为全球研究者提供免费填充服务,促进数据共享。

局限性
1. 测序深度(15.41×)可能影响罕见变异检测灵敏度。
2. 参考面板中99.5%为卒中病例,需进一步评估疾病状态对单倍型频率的影响。

未来,基于CKB队列的百万级表型-GWAS整合分析有望揭示中国人群复杂疾病的遗传基础,助力精准医学发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com