中国嘉道理生物银行(CKB)高分辨率单倍型参考面板的构建与应用研究
作者及发表信息
本研究的通讯作者包括北京大学的李立明教授(Liming Li)、BGI研究所的金鑫研究员(Xin Jin)、北京大学的吕筠教授(Jun Lv)以及BGI研究所的朱欢欢研究员(Huanhuan Zhu)。合作团队来自北京大学、中国医学科学院、牛津大学、BGI研究所等十余家机构。研究成果于2023年10月23日以开放获取形式发表于Nucleic Acids Research(2023年51卷,11770–11782页),标题为《A high-resolution haplotype-resolved reference panel constructed from the China Kadoorie Biobank study》。
学术背景
精准医学(precision medicine)依赖于高精度的个体基因型数据,但全基因组测序(whole-genome sequencing, WGS)因成本限制难以大规模应用。基因型填充(genotype imputation)技术通过参考面板(reference panel)将微阵列数据(microarray data)转化为全基因组数据,是解决这一问题的关键。然而,现有国际参考面板(如1000 Genomes Project、TOPMed)对东亚人群(尤其是中国人群)的代表性不足。中国嘉道理生物银行(CKB)作为全球最大的中国人群前瞻性队列,拥有超过50万人的生物样本和临床数据,但此前缺乏高密度遗传数据支持。本研究旨在基于CKB队列构建中国人群特异的高分辨率单倍型参考面板,并评估其性能。
研究流程与方法
1. 样本与测序
- 研究对象:10,000名中国个体,包括9,950名CKB队列中的卒中病例和50名来自1000 Genomes Project的中国汉族样本。
- 测序技术:采用MGI DNBSEQ平台进行中深度(平均15.41×)全基因组测序(paired-end 100 bp,插入片段350 bp)。
变异检测与质量控制
参考面板构建
性能评估
大规模数据填充与应用
在线服务平台
开发免费填充服务器(https://db.cngb.org/imputation/),支持CKB和1kgp面板,提供GRCh37/38基因组版本及多种算法选择。
主要结果与逻辑关联
- 变异谱特征:CKB面板中44.1%的SNP和33.8%的indel为新型变异(novel variants),罕见变异(MAF < 0.5%)占主导。功能注释显示55%为内含子变异,26%位于基因间区,9个常见致病性变异与疾病(如家族性高胆固醇血症、肝癌)相关。
- 性能优势:CKB面板在填充中国人群数据时,其准确性(r²)和变异数量均优于TOPMed和ChinaMAP,尤其在低频变异(1% < MAF ≤ 5%)填充中表现突出。
- GWAS验证:填充数据使身高关联分析统计效能显著提升,新增的28个位点中92.9%与已知基因(如CHD8、ZBTB20)相符,证实了填充数据的可靠性。
研究价值与意义
1. 科学价值:CKB面板填补了中国人群高精度参考面板的空白,为东亚人群遗传研究提供了关键资源。
2. 应用价值:
- 推动中国人群复杂疾病(如卒中、糖尿病)的遗传机制解析。
- 支持多基因风险评分(polygenic risk score)在精准医学中的应用。
3. 数据共享:面板及填充数据已公开于中国国家基因库(CNGBdb,编号CNP0003405),采用受控访问模式。
研究亮点
1. 样本规模与代表性:基于全球最大中国人群队列(CKB),覆盖10个地理区域,样本量远超同类中国面板(如NyuWa的2,902例)。
2. 方法创新:
- 采用Sentieon DNASeq流程,较GATK提速30倍且保持同等精度。
- 保留亲缘样本提升单倍型定相准确性,借鉴1000 Genomes Project最新策略。
3. 资源扩展性:配套开发的在线服务器为全球研究者提供免费填充服务,促进数据共享。
局限性
1. 测序深度(15.41×)可能影响罕见变异检测灵敏度。
2. 参考面板中99.5%为卒中病例,需进一步评估疾病状态对单倍型频率的影响。
未来,基于CKB队列的百万级表型-GWAS整合分析有望揭示中国人群复杂疾病的遗传基础,助力精准医学发展。