分享自:

NHLBI TOPMed计划中53,831个多样化基因组的测序分析

期刊:natureDOI:10.1038/s41586-021-03205-y

学术研究报告:NHLBI TOPMed项目53,831个多样化基因组测序分析

作者及发表信息
本研究由Daniel Taliun等216位来自美国密歇根大学、马里兰大学医学院、华盛顿大学等机构的学者共同完成,于2021年2月11日发表于《Nature》(卷590)。


学术背景

研究领域与动机
本研究属于人类基因组学与精准医学领域,核心目标是解析心脏、肺、血液及睡眠障碍的遗传学基础。随着DNA测序技术成本降低,大规模全基因组测序(Whole-Genome Sequencing, WGS)成为可能,但此前研究多聚焦常见变异,对罕见变异(rare variants)和非编码区变异的探索不足。TOPMed(Trans-Omics for Precision Medicine)项目通过整合深度表型数据和多样化人群的基因组数据,旨在填补这一空白,并为疾病诊断和治疗提供新靶点。

科学问题
1. 人类基因组中罕见变异的分布规律及其与功能约束的关系;
2. 突变过程的生物学机制(如单核苷酸变异簇的形成);
3. 群体遗传学视角下的人类进化与适应性选择特征。


研究流程与方法

1. 样本与数据生成

  • 研究对象:53,831名来自80余项子研究的参与者,覆盖非洲、欧洲、东亚、拉丁美洲等多 ancestry 群体,包含40,722名无关个体。
  • 测序技术:高覆盖率WGS(平均深度38.2×),生成7.0×10¹⁵碱基数据,使用标准化流程(GATK v4.1.3)进行联合变异检测。
  • 质量控制:通过重复样本比对(SNV一致性99.95%)、外显子数据交叉验证(80%变异重叠)及机器学习过滤降低批次效应。

2. 变异检测与注释

  • 变异类型:共检测到4.1亿个变异(3.81亿单核苷酸变异SNV,2,898万插入缺失变异indel),其中78.7%为新发现变异(未收录于dbSNP 149)。
  • 功能注释:使用CADD评分(Combined Annotation-Dependent Depletion)评估变异的保守性,并分析编码区(如错义、无义突变)与非编码区(如启动子、UTR)变异的分布差异。
  • 特殊分析
    • CYP2D6基因分型:结合SNV、拷贝数变异和同源重组信息,鉴定99个等位基因(33个为新发现),揭示药物代谢酶的多态性。
    • 未比对序列组装:通过de novo组装发现1,017段祖先序列(总长528 kb),其中58个基因区在参考基因组中缺失。

3. 群体遗传学分析

  • 稀有变异共享:非洲裔人群的稀有变异多样性最高,而Amish群体因奠基者效应(founder effect)呈现高内部共享。
  • 单体型聚类:通过IBD(Identity-by-Descent)分析推断群体历史,如欧洲人群5–10代前的瓶颈事件。
  • 正选择信号
    • 欧洲人群:乳糖酶(LCT)、MHC区域和虹膜色素基因HERC2;
    • 东亚人群:酒精代谢基因ADH1B(rs1229984)和ALDH2(rs671)。

4. 数据资源开发

  • TOPMed Imputation Server:基于97,256个样本构建全球最大WGS参考面板,可将低频变异(MAF≥0.01%)的填补精度(r²)提升至0.96。
  • 公共数据库:原始数据通过dbGaP(Database of Genotypes and Phenotypes)共享,配套变异浏览器(BRAVO)支持交互查询。

主要结果

  1. 罕见变异特征

    • 46%的变异为“单例”(singleton,仅出现于1个个体),在无关个体中比例升至53%。
    • 功能约束区域(如编码区、转录因子结合位点)的单例比例显著低于中性区域(如内含子)。
  2. 突变机制新发现

    • 短距离SNV簇(<100 bp):占单例的1.9%,富集A>T和C>A颠换,提示跨损伤合成(trans-lesion synthesis)的作用。
    • 母源C>G突变簇:位于8p、16p等亚端粒区,可能与双链断裂修复或转录相关突变有关。
  3. 临床关联

    • 在UK Biobank数据中,TOPMed填补面板可召回84.86%的MAF>0.05%外显子变异,并发现BRCA2、USH2A等基因的罕见功能缺失变异(pLoF)与疾病显著相关。

结论与意义

  1. 科学价值

    • 首次系统性刻画人类基因组罕见变异的全谱,揭示突变过程与自然选择的相互作用。
    • 为复杂疾病的稀有变异关联分析(RVAS)提供高精度工具,推动精准医学发展。
  2. 应用价值

    • TOPMed资源支持跨群体研究,尤其改善非洲和拉丁裔人群的遗传分析效力。
    • CYP2D6等位基因数据库可优化药物基因组学(pharmacogenomics)临床应用。

研究亮点

  1. 规模与多样性:迄今最大规模的多 ancestry WGS研究,涵盖46%未被记录的变异。
  2. 方法创新
    • 开发混合指数模型解析SNV簇的突变机制;
    • 结合长读长数据验证结构变异的准确性。
  3. 跨学科整合:将群体遗传学、功能基因组学与临床表型数据深度关联。

其他价值
- 通过云端平台(NHLBI BioData Catalyst)实现数据安全共享,兼顾参与者隐私与科研需求。

(报告字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com