基于中国嘉道理生物库研究构建的高分辨率单倍型参考面板

分享自：
基于中国嘉道理生物库研究构建的高分辨率单倍型参考面板

医学遗传学
公共卫生
医学
遗传学
生命科学
期刊:nucleic acids researchDOI:10.1093/nar/gkad779
【点击此处】阅读全文、收藏及针对性提问
中国嘉道理生物银行（CKB）高分辨率单倍型参考面板的构建与应用研究
作者及发表信息
 本研究的通讯作者包括北京大学的李立明教授（Liming Li）、BGI研究所的金鑫研究员（Xin Jin）、北京大学的吕筠教授（Jun Lv）以及BGI研究所的朱欢欢研究员（Huanhuan Zhu）。合作团队来自北京大学、中国医学科学院、牛津大学、BGI研究所等十余家机构。研究成果于2023年10月23日以开放获取形式发表于Nucleic Acids Research（2023年51卷，11770–11782页），标题为《A high-resolution haplotype-resolved reference panel constructed from the China Kadoorie Biobank study》。
学术背景
 精准医学（precision medicine）依赖于高精度的个体基因型数据，但全基因组测序（whole-genome sequencing, WGS）因成本限制难以大规模应用。基因型填充（genotype imputation）技术通过参考面板（reference panel）将微阵列数据（microarray data）转化为全基因组数据，是解决这一问题的关键。然而，现有国际参考面板（如1000 Genomes Project、TOPMed）对东亚人群（尤其是中国人群）的代表性不足。中国嘉道理生物银行（CKB）作为全球最大的中国人群前瞻性队列，拥有超过50万人的生物样本和临床数据，但此前缺乏高密度遗传数据支持。本研究旨在基于CKB队列构建中国人群特异的高分辨率单倍型参考面板，并评估其性能。
研究流程与方法
 1. 样本与测序
 - 研究对象：10,000名中国个体，包括9,950名CKB队列中的卒中病例和50名来自1000 Genomes Project的中国汉族样本。
 - 测序技术：采用MGI DNBSEQ平台进行中深度（平均15.41×）全基因组测序（paired-end 100 bp，插入片段350 bp）。
变异检测与质量控制
数据预处理：使用SOAPnuke过滤低质量读段，Sentieon BWA-MEM算法比对至GRCh38参考基因组。
 
变异调用：采用Sentieon DNASeq流程（替代GATK），通过局部重比对和碱基质量校正（BQSR）提高准确性。
 
样本筛选：剔除污染样本（VerifyBAMID Freemix < 0.03）、重复率>5%或平均深度<10×的样本，最终保留9,964个样本。
 
参考面板构建
单倍型定相（phasing）：使用Beagle v5.2对基因型进行统计估计，保留第二度以内亲缘关系样本以优化单倍型准确性。
 
注释与过滤：通过Ensembl VEP工具标注变异功能，结合ClinVar数据库筛选致病性变异，最终生成包含1.297亿变异（1.137亿SNP和1,601万indel）的CKB参考面板。
 
性能评估
对比面板：与国际面板（TOPMed、1000 Genomes Project）及中国面板（ChinaMAP、NyuWa）比较。
 
评估指标：
 填充数量：CKB面板在中等质量变异（信息分数0.4–0.8）数量上领先（1,086万），高质量变异（信息分数>0.8）占比84.63%。
 
准确性：基于50例CKB样本的微阵列数据填充后，与高深度WGS（44.14×）对比，Pearson相关系数（r²）达0.961，灵敏度（sensitivity）为95.57%，精确度（precision）为97.98%，均优于其他面板。
 
大规模数据填充与应用
100,706例微阵列数据填充：并行分块处理，生成迄今最大规模的中国人群全基因组数据（4,261万中等质量变异+1,745万高质量变异），填充后r²提升至0.972。
 
GWAS分析验证：以身高为表型，填充后测试SNP数量从303万增至920万，显著关联位点从119个增至147个，其中26个新增位点已被既往研究证实。
 
在线服务平台
 开发免费填充服务器（https://db.cngb.org/imputation/），支持CKB和1kgp面板，提供GRCh37/38基因组版本及多种算法选择。
主要结果与逻辑关联
 - 变异谱特征：CKB面板中44.1%的SNP和33.8%的indel为新型变异（novel variants），罕见变异（MAF < 0.5%）占主导。功能注释显示55%为内含子变异，26%位于基因间区，9个常见致病性变异与疾病（如家族性高胆固醇血症、肝癌）相关。
 - 性能优势：CKB面板在填充中国人群数据时，其准确性（r²）和变异数量均优于TOPMed和ChinaMAP，尤其在低频变异（1% < MAF ≤ 5%）填充中表现突出。
 - GWAS验证：填充数据使身高关联分析统计效能显著提升，新增的28个位点中92.9%与已知基因（如CHD8、ZBTB20）相符，证实了填充数据的可靠性。
研究价值与意义
 1. 科学价值：CKB面板填补了中国人群高精度参考面板的空白，为东亚人群遗传研究提供了关键资源。
 2. 应用价值：
 - 推动中国人群复杂疾病（如卒中、糖尿病）的遗传机制解析。
 - 支持多基因风险评分（polygenic risk score）在精准医学中的应用。
 3. 数据共享：面板及填充数据已公开于中国国家基因库（CNGBdb，编号CNP0003405），采用受控访问模式。
研究亮点
 1. 样本规模与代表性：基于全球最大中国人群队列（CKB），覆盖10个地理区域，样本量远超同类中国面板（如NyuWa的2,902例）。
 2. 方法创新：
 - 采用Sentieon DNASeq流程，较GATK提速30倍且保持同等精度。
 - 保留亲缘样本提升单倍型定相准确性，借鉴1000 Genomes Project最新策略。
 3. 资源扩展性：配套开发的在线服务器为全球研究者提供免费填充服务，促进数据共享。
局限性
 1. 测序深度（15.41×）可能影响罕见变异检测灵敏度。
 2. 参考面板中99.5%为卒中病例，需进一步评估疾病状态对单倍型频率的影响。
未来，基于CKB队列的百万级表型-GWAS整合分析有望揭示中国人群复杂疾病的遗传基础，助力精准医学发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问