一项针对中国新生儿的大规模靶向基因筛查研究:揭示携带者状态与早发疾病风险的遗传图谱
一、 研究团队与发表信息
本研究由 Chanjuan Hao、Xuyun Hu、Ruolan Guo、Zhan Qi、Limin Xie、Feng Jin、Huimin Li、Xin Ni 和 Wei Li 共同完成。研究团队主要来自首都医科大学附属北京儿童医院(北京市出生缺陷遗传学研究重点实验室、儿童重大疾病教育部重点实验室、遗传与出生缺陷防控中心、国家儿童医学中心)、郑州大学附属河南省儿童医院(河南省遗传与发育性疾病重点实验室、儿科研究所)以及河南省医学科学院儿童健康研究所等单位。该项研究成果于2025年发表在 Nature Portfolio 旗下的期刊 Communications Medicine 上。
二、 学术背景与研究目的
本研究属于医学遗传学与公共卫生领域的交叉研究,具体聚焦于新生儿筛查(Newborn Screening, NBS)的扩展与应用。新生儿筛查始于20世纪60年代,旨在早期发现可治疗的先天性代谢缺陷(Inborn Errors of Metabolism, IEMs),如苯丙酮尿症(Phenylketonuria, PKU)。串联质谱(Tandem Mass Spectrometry, MS/MS)技术的应用极大地扩展了可筛查的IEMs病种范围。然而,许多具有可干预性的早发性单基因疾病,传统的生化筛查方法仍无法有效检出。
随着下一代测序(Next-Generation Sequencing, NGS)技术的发展,高通量、高精度且成本效益日益提升的基因检测为新生儿筛查带来了革命性的机遇。靶向基因测序Panel能够克服传统方法的局限,不仅能扩大可检疾病谱,还能识别携带者状态,从而为父母筛查和家庭遗传咨询提供信息,间接影响未来的生育决策。
基于此背景,本研究团队旨在通过一项大规模的新生儿基因筛查研究,评估中国新生儿群体中致病性/可能致病性(Pathogenic/Likely Pathogenic, P/LP)遗传变异的流行率和分布谱。具体目标包括:1)分析33,894名新生儿中465个与单基因疾病相关基因的P/LP变异携带率;2)估算特定疾病(尤其是IEMs和遗传性听力损失)的预测发病率;3)探索中国南北地区人群在遗传变异频率和疾病谱上的差异;4)为中国人群新生儿基因筛查的优化和公共卫生策略的制定提供关键数据基础。
三、 详细研究流程与方法
本研究是一项横断面研究,流程严谨,主要包括研究对象招募、样本采集与处理、靶向测序与变异识别、变异解读与分类、以及数据统计分析等多个环节。
1. 研究对象与样本采集: 研究在2017年至2024年间,从中国14个省份的31家医院共招募了33,894名新生儿。研究对象设计旨在代表广泛的人口学特征,覆盖了不同的地理区域。样本收集在出生后72小时内进行,除用于常规国家新生儿筛查(如PKU和先天性甲状腺功能减低症)的第一张干血斑卡片外,本研究额外采集了第二张干血斑卡片用于基因分析。研究获得了北京儿童医院伦理审查委员会(2017-k-39)的批准,并获取了所有参与者父母或法定监护人的知情同意。
2. 基因Panel设计与测序: 研究团队使用了一个定制设计的靶向测序Panel,覆盖了465个与早发性、严重且具有临床可干预性的遗传病相关的基因。测序深度大于200×,目标区域覆盖率超过95%,碱基质量(Q20 > 90%; Q30 > 80%)符合高标准。测序后,使用标准生物信息学流程分析原始数据,识别目标基因中的变异。
3. 变异解读与分类: 这是研究的关键环节。所有识别出的变异均根据本地优化的美国医学遗传学与基因组学学会(American College of Medical Genetics and Genomics, ACMG)指南进行分类。该优化指南参考了研究团队先前发表的工作(见补充材料)。只有被分类为致病性(P)或可能致病性(LP) 的变异被纳入最终分析。意义不明确的变异(Variant of Uncertain Significance, VUS)不参与流行率计算,以确保结果的高度严谨性。对于926个在遗传咨询中需要确认遗传来源(如新发突变或复合杂合子相位)的变异,进行了Sanger测序验证,验证结果与NGS结果100%一致。
4. 数据分析与统计方法: * 携带率与等位基因频率计算: 使用描述性统计计算总体P/LP变异携带率、特定基因的等位基因频率(Allele Frequency, AF)。 * 累积携带率(Combined Carrier Rate, CCR): 对于特定疾病组(如IEMs),CCR定义为携带该组内任何基因P/LP变异的概率。 * 预测发病率估算: 对于常染色体隐性遗传病,特定基因的预测发病率基于哈代-温伯格平衡,计算为该基因所有P/LP变异累积等位基因频率的平方。 * 区域差异分析: 以秦岭-淮河线为界,将样本分为北方和南方人群。使用卡方检验和Fisher精确检验比较南北人群在变异分布和疾病频率上的差异,显著性水平设为p < 0.05。 * 高频变异与突变谱分析: 识别在人群中出现超过50次的高频P/LP变异,并与gnomAD v4数据库中的全球及东亚人群频率进行比较,计算比值比(Odds Ratio, OR)。 * 研究新颖性方法: 本研究的核心方法学创新在于应用了大规模、前瞻性的新生儿队列进行系统性靶向基因Panel测序,并采用了经过本地化优化的ACMG变异解读标准,这更适合中国人群的遗传背景数据。此外,研究不仅关注致病变异,还系统性地计算了基于基因频率的疾病预测发病率,并与传统生化筛查数据进行了关联比较。
四、 主要研究结果
1. 总体P/LP变异流行率与分布: 在33,894名新生儿中,共16,687名(49.2%) 被鉴定为至少携带一个P/LP变异。共检测到22,457个P/LP等位基因,涉及分析的465个基因中的427个(91.8%)。平均每个新生儿携带0.7个P/LP变异。南方人群的阳性检出率(52.1%)显著高于北方人群(48.5%)(p = 1.4346 × 10⁻⁷)。
2. 基因特异性等位基因频率与变异谱: * 高频基因: 最常见的致病基因是GJB2(等位基因频率 5.56%,与常染色体显性/隐性非综合征性遗传性耳聋相关),其次是PAH(1.41%,苯丙酮尿症)和SLC26A4(1.30%,Pendred综合征/大前庭水管综合征)。 * 变异类型与异质性: 在总共发现的6,019个不同的P/LP变异中,有1,032个(17.1%) 是此前未报道的新变异。错义变异占45%,截短变异(移码、无义、剪切变异)占51%。突变异质性最高的基因包括USH2A、DNAH11、PAH和DNAH5。
3. 疾病筛查结果与风险预估: * 先天性代谢缺陷(IEMs): 可通过MS/MS筛查的57种IEMs相关变异占所有检出变异的21.7%。其累积预测发病率为1/2,177活产儿,CCR为13.7%。贡献最大的基因包括PAH、MMACHC、SLC22A5、MMUT和SLC25A13。高苯丙氨酸血症(预测发病率1/5,011)和甲基丙二酸血症(预测发病率1/7,649)是其中发病率较高的疾病。 * 遗传性听力损失: 主要由GJB2和SLC26A4的P/LP变异引起,占所有变异的35.6%。若不包括不完全外显的GJB2 c.109G>A变异,则比例降至22.8%。基于此,常染色体隐性遗传性听力损失的预测发病率为1/2,105,CCR为13.6%。若包含GJB2 c.109G>A,则预测发病率升至1/295,CCR升至21.1%。 * 其他疾病: 研究还估算了其他疾病的预测发病率,如球形红细胞增多症(1/5,619)、白化病(1/22,776)、肾病综合征(1/30,563)等。
4. 高频变异分析: * GJB2 c.109G>A 是人群中频率绝对占优的变异,在2763名个体中检出。其他高频变异包括GJB2 c.235delC、SLC26A4 c.919-2A>G等。 * 与gnomAD数据库比较: 本研究队列中47个高频P/LP变异的AF,除MYO6 c.2751dupA外,均显著高于gnomAD全球总体AF。与gnomAD东亚人群AF相比,有33个变异显著更高,14个显著更低,反映了中国人群独特的突变谱。例如,MMACHC c.609G>A、PAH c.1197A>T、SLC45A2 c.478G>C等变异在中国人群中的富集程度极高(OR > 100)。
5. 疾病流行率与遗传变异的区域差异: 南北人群在疾病谱和变异频率上存在显著差异(p < 0.0001, |log2 OR| > 1): * 北方更常见: 甲基丙二酸血症伴同型半胱氨酸血症(CblC型)、苯丙酮尿症、短链酰基辅酶A脱氢酶缺乏症。 * 南方更常见: 葡萄糖-6-磷酸脱氢酶(G6PD)缺乏症、β-地中海贫血。GJB2基因突变(尤其是c.109G>A)在南方也更常见,若排除此变异,南北差异则大幅缩小。 * 突变谱差异: 以PAH基因为例,北方最常见的变异是c.728G>A(占北方PAH变异的15.4%),而南方最常见的则是c.516G>T(占13.0%),后者在北方仅排第十位(3%)。这提示了不同的群体遗传历史和奠基者效应。
五、 研究结论与意义
本研究首次在中国新生儿大规模队列中系统性地描绘了单基因疾病的遗传变异图谱,并基于此预测了地方性疾病发病率,是对主要基于西方人群数据的早期估算的重要改进。
科学价值: 1. 提供了中国新生儿群体P/LP变异携带率、疾病预测发病率和突变谱的全面基线数据。 2. 揭示了中国南北人群在遗传病负担和突变谱上的显著差异,为理解中国人群的群体遗传结构提供了重要见解。这种差异可能源于历史人口瓶颈、奠基者效应以及南方长期存在的疟疾选择压力(如G6PD缺乏症和地中海贫血的变异)。 3. 发现了大量(17.1%)新的P/LP变异,极大地丰富了相关疾病的已知突变谱,并表明中国人群的遗传多样性可能与其他族群存在显著不同。 4. 验证了靶向基因测序作为新生儿筛查工具的可行性、高灵敏度与临床效用,特别是在发现传统生化方法可能漏检的病例方面。
应用价值与重要观点: 1. 为公共卫生政策制定提供依据: 研究结果可直接用于优化中国的新生儿筛查策略。例如,针对南北地区不同的高发疾病谱,可以考虑实施区域化的筛查重点。对于携带率高、地区差异大的疾病(如GJB2相关耳聋、地中海贫血、G6PD缺乏症),将基因筛查整合到常规NBS中可能具有较高的成本效益。 2. 指导遗传咨询与临床实践: 明确的携带率和高频变异信息,有助于为家庭提供更精准的遗传咨询、生殖规划指导和个性化风险管理。 3. 支持精准医学与靶向药物研发: 研究数据为针对中国人群特定高发遗传病的药物研发和精准医疗计划奠定了坚实的数据基础。 4. 推动筛查技术发展: 研究表明,基于NGS的基因筛查相比传统生化方法可能具有更高灵敏度,并能覆盖更广的疾病谱,支持将其作为未来扩展性新生儿筛查的重要方向。
六、 研究亮点
七、 其他有价值的内容与局限性
研究也坦诚地讨论了其局限性: 1. 样本代表性: 尽管样本量大,但北方与南方样本比例约为4:1,且各省份样本量不均,可能对区域比较的普遍性产生一定影响。 2. 技术局限性: 当前基因Panel未覆盖非编码区变异和拷贝数变异(CNVs),可能遗漏部分致病变异。例如,SMN1基因仅分析了单核苷酸变异,而其主要的致病机制是CNV。 3. 变异解读范围: 研究聚焦于P/LP变异,未纳入VUS,虽然保证了结果的严谨性,但可能低估了部分疾病风险。 4. 缺乏长期随访: 作为横断面研究,缺乏对携带P/LP变异新生儿的长期临床结局随访数据,无法评估基因型-表型关联和筛查的最终临床效用。
这些局限性为未来研究指明了方向,包括:开展更平衡的抽样或敏感性分析以验证区域模式;将CNV分析纳入筛查Panel;对VUS进行长期追踪和重新分类;以及最重要的,开展纵向研究以评估早期基因筛查对改善患儿长期健康结局的实际效果、成本效益和在资源有限地区的可行性。
总而言之,这项研究为中国新生儿单基因疾病的遗传流行病学提供了前所未有的详细画卷,为未来制定精准、高效且符合中国国情的出生缺陷防控和公共卫生策略奠定了至关重要的数据基石。