该文档属于类型b:一份介绍多项独立研究进展的学术评论或研究亮点总结文章。
本文档发表于2019年3月的《自然综述·遗传学》(*Nature Reviews Genetics*)期刊第20卷,作为“研究亮点”(Research Highlights)栏目的一部分。该栏目旨在总结近期发表的重要研究论文。本文档综合介绍了同期或近期发表于《细胞》(*Cell*)和《美国人类遗传学杂志》(*The American Journal of Human Genetics*)等期刊上的三项独立研究,并提及了一篇相关的综述文章。文章作者应为期刊编辑或撰稿人(文中提及Darren J. Burgess和Dorothy Clyde等署名,可能为各部分撰稿人),其主要目的是向遗传学领域的研究者通报这些重要进展。
本文档的核心主题是探索基因组不稳定性与疾病(特别是癌症和遗传病)的新机制,以及利用新兴技术(如深度学习和新生儿基因组测序)来解读遗传变异和改善疾病诊断。文章围绕三个主要研究展开论述,每个研究解决了一个关键的科学问题。
第一个主要观点:利用细菌遗传学筛选发现人类癌症中内源性DNA损伤促进蛋白。 该部分重点介绍了Xia, Chiu等人发表在《细胞》(*Cell*)期刊上的研究。文章指出,传统上对癌症中DNA损伤与修复的研究主要集中在抑癌蛋白如何对抗和修复损伤。而这项研究则采取了相反的角度,旨在系统性地发现那些过表达时会主动促进DNA损伤和诱变的细胞内源蛋白。研究者使用了大肠杆菌(*Escherichia coli*)全基因组过表达文库,通过基于荧光的SOS DNA损伤反应进行筛选。他们成功鉴定出208个此类蛋白,并将其命名为“损伤上调”蛋白(DNA ‘damage-up’ proteins, DDPs)。这些DDPs的致DNA损伤和诱变效应通过独立实验和DNA测序得到了验证。值得注意的是,这些蛋白功能多样,只有8%是已知的DNA修复蛋白,表明许多蛋白在诱变中的作用是未知的。进一步的机制研究显示,不同的DDPs会导致不同类型的突变(从单核苷酸变化到大规模染色体重排),并通过一系列实验(如对不同DNA损伤剂的敏感性测试)将DDPs分成了六个功能簇。深入的分子机制探索揭示,超过一半的DDPs会导致复制叉反转,其中富含DNA结合转录因子。其机制是这些转录因子与DNA结合后,阻碍了DNA复制机器的前进,导致复制叉停滞和反转。其他机制还包括:某些作为H+同向转运体的DDPs会引发高活性氧水平(reactive oxygen species, ROS)从而导致DNA损伤;而像DNA聚合酶IV这样的DDPs,除了其已知的低保真聚合酶催化活性外,还能通过与复制体钳(replisome clamp)结合介导DNA丢失。
为了将细菌中的发现与人类癌症联系起来,研究团队鉴定了284个与细菌DDPs同源的人类蛋白。他们发现,这些候选人类DDPs在癌症中的表达水平与突变负荷和不良临床预后相关。即使排除已知的癌症驱动基因,这种相关性依然存在,表明这批候选蛋白中包含了许多目前未被充分认识的癌症相关蛋白。在实验验证中,约一半被测试的候选人类DDPs在人类细胞中能引发DNA损伤。研究还列举了两个具体的功能关联例子:人类钾通道亚基KCNB1和KCNB2通过升高ROS水平诱导DNA损伤(类似于细菌的H+同向转运体),这解释了膜蛋白如何能从远处影响DNA保真性;人类DNA甲基转移酶1(DNMT1)则与细菌DNA聚合酶IV类似,即使没有催化活性也能造成DNA损伤并能结合复制体钳,这表明DNMT1的致癌作用可能超出了其通过启动子DNA甲基化沉默抑癌基因的传统认知。
该研究的亮点在于,它展示了一个进化上遥远的细菌系统如何能为复杂的人类癌症提供相关的功能信息。它开辟了新的研究方向:评估癌症中DDPs水平是否能提供不同于基于测序的癌症突变特征的独特预后和治疗信息,以及人类致癌转录因子是否在已知的基因失调作用之外,还具有额外的复制叉效应。
第二个主要观点:利用深度学习模型SpliceAI从初级序列预测RNA剪接及其变异影响。 该部分介绍了Jaganathan等人发表在《细胞》(*Cell*)上的研究。文章指出,前体mRNA(pre-mRNA)的精确剪接对基因功能至关重要,剪接缺陷会导致疾病。然而,人们对决定此过程准确性的序列特征理解仍不完全,因此难以识别可能破坏剪接的遗传变异。该研究开发了名为SpliceAI的深度神经网络来解决这一问题。SpliceAI仅以前体mRNA的基因组序列作为输入,就能预测任意给定位置是剪接受体(splice acceptor)、剪接供体(splice donor)还是两者都不是。其关键创新在于,该网络使用了一个10,000个核苷酸的窗口,使其能够学习更广泛序列背景中的特征(包括短程特征如GT/AG二核苷酸,以及长程特征如外显子-内含子长度和核小体定位)来定义外显子。结果显示,SpliceAI在预测GENCODE注释的前体mRNA序列测试集中的剪接位点时,达到了95%的Top-K准确率。
研究者进一步用SpliceAI挑战了从基因型-组织表达(GTEx)队列149个个体的全基因组测序数据中识别隐性剪接突变(cryptic splice mutations,即导致剪接改变的非编码序列变异)。利用同时获得的RNA测序数据验证发现,预测得分高的变异在RNA-seq数据中具有更大的效应量和更高的验证率,表明SpliceAI的预测分数能反映变异改变剪接的潜力。有趣的是,许多已验证的突变(尤其是低分突变)并非完全外显,正常转录本和异常剪接转录本可能同时存在。低分隐性剪接位点的使用常具有组织特异性,暗示当正常位点和新位点同等有利时,组织特异性特征可能驱动剪接位点的选择。
为了评估SpliceAI对罕见遗传病诊断率的提升潜力,研究者将其应用于解码发育障碍(DDD)队列的4,293名智力障碍患者和自闭症谱系障碍(ASD)患者队列的3,953名个体的新生突变分析。结果显示,破坏剪接的新生突变在患者组中显著富集。作者估计,隐性剪接变异分别占智力障碍和ASD中致病性突变的9%和11%。对来自Simons Simplex Collection的28名ASD个体淋巴母细胞系进行的RNA-seq分析,验证了其中21人存在预测的隐性剪接模式,表明大多数预测可能具有功能相关性。作者建议,隐性剪接突变可能在其他罕见遗传病中也解释类似比例(9-11%)的病例。为此,他们提供了全基因组所有可能核苷酸替换的预测分数资源,以促进对遗传病中隐性剪接变异的解读和理解。
第三个主要观点:BabySeq项目探索新生儿基因组测序的临床价值。 该部分总结了Ceyhan-Birsoy等人发表在《美国人类遗传学杂志》(*The American Journal of Human Genetics*)上的BabySeq项目初步结果。这是一个探索对新生儿进行常规基因组测序相较于标准新生儿筛查价值的随机临床试验。研究招募了316名新生儿,其中159名(包括127名健康婴儿和32名新生儿重症监护室婴儿)接受了全外显子组测序(whole-exome sequencing, WES)以及标准筛查。仅将与儿童期发病疾病强相关的基因结果告知父母。
研究发现,9.4%的测序新生儿(15名)携带增加儿童期发病疾病风险的遗传变异,这些疾病早期治疗有益(如心肌病、先天性肾上腺增生或听力丧失)。这些结果无法根据新生儿的临床或家族史预测。此外,88%的测序新生儿是一种或多种与隐性疾病相关罕见变异的携带者(即自身不发病但可能传递给后代)。5%的参与者携带影响儿科人群药物反应的药物基因组学变异。约一半父母同意接收关于可干预的成人期发病疾病(如乳腺癌或结肠癌)的WES结果,并在三名婴儿(3.5%)中发现了此类变异,促使对传递该变异的父母进行咨询和潜在监测。BabySeq项目将继续随访参与者,以评估WES对家庭长期的经济、医疗和行为影响。
文档的意义与价值 本文档作为一份研究亮点总结,高效地整合了多个前沿研究方向的重要进展。其价值在于:首先,它向遗传学和基因组学领域的研究者集中展示了从基础机制(内源性DNA损伤、RNA剪接规则)到临床应用(新生儿基因组测序)的最新突破。其次,它强调了跨学科方法(如细菌遗传学筛选、深度学习、临床随机试验)在解决复杂生物医学问题中的强大力量。第三,它指出了未来研究的明确方向:例如,进一步探索DDPs在癌症中的预后和治疗意义,利用SpliceAI等工具提高罕见病诊断率,以及评估普及性新生儿基因组测序的长期效益和挑战。最后,文档通过引用相关综述(如Wright等人关于儿科基因组学的综述),为读者提供了更广阔的学术背景和延伸阅读的指引。总体而言,这篇文章精炼地勾勒了当代遗传学研究在理解疾病根源和改善人类健康方面的活跃图景。