英国生物银行(UK Biobank)49万全基因组测序研究:揭示人类遗传变异与疾病关联的新维度
作者及发表信息
本研究由*The UK Biobank Whole-Genome Sequencing Consortium*主导,合作机构包括AstraZeneca、Amgen deCODE Genetics、GSK、Johnson & Johnson、Wellcome Sanger Institute等。成果发表于*Nature*期刊,在线发布时间为2025年6月11日(DOI: 10.1038/s41586-025-09272-9)。
学术背景
科学领域:本研究属于人类基因组学与精准医学交叉领域,聚焦大规模全基因组测序(Whole-Genome Sequencing, WGS)在疾病关联分析中的应用。
研究动机:尽管UK Biobank此前已通过基因分型(genotyping)和外显子测序(Whole-Exome Sequencing, WES)积累了丰富数据,但两者均存在技术局限——基因分型无法捕捉罕见变异和复杂基因组区域,而WES仅覆盖2%-3%的编码区,遗漏大量非编码变异(non-coding variation)和结构变异(Structural Variants, SVs)。WGS可提供无偏见的全基因组视图,填补这一空白。
研究目标:
1. 完成490,640名UK Biobank参与者的WGS,构建全球最大规模的公开WGS资源;
2. 通过多族群分析揭示疾病关联的遗传机制;
3. 探索非编码变异(如UTR区域)对疾病的贡献。
研究流程与方法
1. 测序与数据生成
- 样本与测序:对490,640名英国参与者的全基因组进行Illumina NovaSeq 6000测序,平均覆盖深度32.5×,质量控制包括1,175份重复样本验证。
- 变异检测:采用三种互补方法——Graphtyper联合调用、DRAGEN单样本调用和多样本聚合分析,共鉴定约15亿变异(包括单核苷酸多态性SNPs、插入缺失Indels和SVs)。
- 结构变异分析:结合短读长(Dragen SV caller)和长读长数据,识别2,739,152个SVs,其中70.3%通过可靠性过滤。
2. 族群分层与变异特征
- 族群分类:基于gnomAD数据,将参与者分为非洲(AFR, 9,229人)、东亚(EAS, 2,245人)、南亚(SAS, 9,674人)、非芬兰欧洲(NFE, 458,855人)等5个族群。
- 变异数量差异:非洲裔个体携带的变异数量最多,反映人类遗传多样性。
3. 表型关联分析
- 全基因组关联分析(GWAS):针对764种ICD-10疾病和71种定量表型,发现33,123个显著关联(p×10⁻⁸),其中12%为WGS独有。例如,发现FOXE3基因罕见移码突变与白内障的关联(p=6.2×10⁻⁹)。
- 跨族群Meta分析:在非欧洲族群中发现126个特异性关联,如HBB基因变异(rs334)在非洲裔中因抗疟疾选择压力高频存在。
- 罕见变异 collapsing分析:比较WGS与WES,WGS在PKHD1等基因中显著提升关联信号(如γ-谷氨酰转移酶关联p值从4.63×10⁻¹⁸优化至1.24×10⁻¹⁹)。
- 非编码区分析:首次系统研究UTR变异,发现63个显著关联,如APOC3的3′UTR变异与高密度脂蛋白胆固醇相关(p=6.15×10⁻⁴³)。
主要结果
1. 变异数量与覆盖度:WGS相比基因分型和WES,变异检出量分别提升18.8倍和40倍,尤其在UTR区域(WES遗漏89.9%的3′UTR变异)。
2. 疾病关联新发现:
- 鉴定3,991个WGS独有关联,86%为罕见变异(MAF<0.0001);
- 发现PCK9基因14,154 bp缺失与非HDL胆固醇降低的强关联(效应值-1.22 SD)。
3. 结构变异的临床意义:
- 52 bp的CALR缺失(与骨髓纤维化相关)在UK Biank中检出48例,验证其与血小板参数关联(p=3.1×10⁻³⁸);
- 0.60%个体携带ACMG推荐的临床可操作SVs,扩展了精准医学的应用范围。
结论与价值
科学意义:
- 提供迄今最全面的WGS公共资源,推动非编码变异与疾病关联的研究;
- 跨族群分析揭示选择压力对遗传结构的塑造(如HBB在疟疾流行区的适应性演化)。
应用价值:
- 为药物靶点选择(如PCK9抑制剂开发)和安全性评估提供遗传学依据;
- 通过“人类基因敲除”模型(如FOXE3纯合突变)预测基因功能缺失的表型效应。
研究亮点
1. 规模与技术革新:全球最大WGS数据集(49万样本),结合多算法变异检测与长读长数据验证。
2. 非编码变异突破:首次大规模揭示UTR变异对复杂性状的贡献,填补WES技术盲区。
3. 跨族群资源:尽管欧洲裔占93.5%,但非欧洲裔样本量(如南亚裔)已超过gnomAD等数据库,助力全球健康研究。
其他价值
- 数据通过UK Biobank研究分析平台开放,支持学术与工业界研究;
- 为 HLA、KIR等复杂区域提供“黄金标准”参考,促进后续研究。
(注:全文术语首次出现均标注英文,如“全基因组测序(Whole-Genome Sequencing, WGS)”)