本文报道了一项由Weiwei Yang、Yan-Jiun Lee、Rebekah M.B. Silva、Amanda Deliberto、Colleen E. Yancey、Daria McCallum、Jackson A. Buss、Rey Moncion、Jennifer L. Ong、Megumu Mabuchi、David M. Hough、Peter R. Weigele和Laurence M. Ettwiller共同完成的研究。这些作者均来自New England Biolabs Inc. (美国马萨诸塞州)。该项研究于2026年5月7日发表在学术期刊《Molecular Cell》上(第86卷,第1598-1613页)。研究团队的主要通讯作者是Peter R. Weigele和Laurence M. Ettwiller。
这项研究属于生物技术、表观遗传学和基因组学交叉领域。其核心目标是发现能够特异性识别并转化5-甲基胞嘧啶(5-methylcytosine, 5mC)的新型酶工具,以解决当前DNA甲基化测序技术的局限性。DNA甲基化是至关重要的表观遗传修饰,在基因调控、发育和疾病中扮演关键角色。目前,检测5mC的“金标准”方法是亚硫酸氢盐测序,但该方法存在严重缺陷:它通过将未甲基化的胞嘧啶(C)转化为尿嘧啶(U)来间接推断甲基化位点,这导致DNA严重降解、序列复杂度降低(四字母遗传密码变为三字母),并且对转化效率要求极高,任何残留的C都可能被误判为5mC。近年来,基于酶的甲基化测序方法(如EM-seq)作为更温和的替代方案出现,但它们同样依赖于对未修饰C的转化,因此仍存在间接读出的固有问题。因此,研究领域迫切需要能够直接、特异性地作用于甲基化胞嘧啶(如5mC)的工具。本研究旨在通过挖掘自然界中,特别是病毒(噬菌体)与细菌的“军备竞赛”中产生的酶资源,寻找具有这种理想特性的新型酶。
研究团队采用了名为“Metagenomic Phenotype-Genotype Association”(MetaGPA)的高通量筛选框架来发现候选酶。该方法的核心思想是:从环境宏病毒组(metavirome)中提取DNA,利用限制性内切酶(Restriction Enzymes, REs)对DNA进行切割处理。含有特殊修饰(如5mC)的DNA片段能够抵抗切割,从而被富集。通过对富集片段进行测序和生物信息学分析,可以找出与“DNA抗切割”这一表型显著相关的基因或蛋白质结构域。通过MetaGPA筛选,研究者发现脱氧胞苷酸脱氨酶(deoxycytidine monophosphate deaminase, dCMP deaminase)结构域与DNA胞嘧啶修饰表型高度相关。进一步分析发现,这些来自预测含有修饰碱基的病毒序列的脱氨酶基因,有高达70%与胸苷酸合酶(thymidylate synthase)基因在基因组上相邻,这暗示它们可能参与噬菌体特有的、涉及修饰碱基的核苷酸代谢途径。
基于此假设,研究者从筛选出的候选基因中选取了90个进行体内功能验证。他们在大肠杆菌中表达这些候选脱氨酶基因,该大肠杆菌菌株能产生5-羟甲基-dCMP(5hmdCMP)。通过液相色谱-质谱联用(LC-MS)检测质粒DNA中是否积累5-羟甲基脱氧尿嘧啶(5hmdU),他们成功鉴定出7个具有5hmC脱氨活性的候选酶。其中一个名为B5的候选酶因其良好的可溶性和高活性被选中,并被命名为甲基化选择性胞苷脱氨酶B5(Methylation-Selective Cytidine Deaminase B5, mscd-B5)。
随后,研究团队对mscd-B5进行了详尽的体外生化表征。他们使用LC-MS监测酶促反应,发现mscd-B5对三磷酸形式的5-甲基脱氧胞苷(5mdCTP)和5-羟甲基脱氧胞苷(5hmdCTP)具有高度选择性脱氨活性,30分钟内对5mdCTP的转化率高达99%,而对未修饰的dCTP转化率仅为4%。重要的是,该酶对单磷酸形式(dCMP/5mdCMP)无活性。进一步实验证明,mscd-B5也能作用于单链DNA(ssDNA)上的5mC和5hmC,但对双链DNA(dsDNA)无活性,这定义了其作用模式。
为了全面评估mscd-B5在复杂DNA背景下的活性和特异性,研究团队构建了一个混合基因组DNA(gdna-mix)文库,包含来自不同来源的DNA:含有5mC的噬菌体XP12、含有5hmC的噬菌体T4gt、含有未修饰C的噬菌体lambda、含有特定序列(CCWGG)5mC修饰的DCM+大肠杆菌基因组,以及所有CpG位点均被5mC修饰的pUC19质粒。使用mscd-B5处理文库后,利用一种能绕过尿嘧啶的DNA聚合酶(Q5U)进行扩增建库,并进行高通量测序。数据分析采用标准比对工具和转化感知工具(如Bismark)进行。结果显示,mscd-B5对ssDNA上的5mC表现出高效且广泛的脱氨作用,平均转化率约69.3%,但对未修饰的C背景脱氨率极低(平均约3.7%),特异性比率(5mC vs. C)高达近20倍。研究还发现,mscd-B5对5mC的脱氨效率与序列上下文有关,在GC富集区域可能因ssDNA易于复性而效率略低。此外,mscd-B5对4-甲基胞嘧啶(4mC)、5-甲酰基胞嘧啶(5fC)、5-羧基胞嘧啶(5caC)以及葡萄糖基化的5hmC均无活性。
基于mscd-B5的特性,研究团队开发了两种优化的甲基化测序流程。第一种流程旨在特异性检测5mC(排除5hmC干扰):利用β-葡萄糖基转移酶(β-glucosyltransferase, BGT)将5hmC转化为β-葡萄糖基-5hmC(β-5gmc),后者不是mscd-B5的底物,从而实现对5mC的特异性检测。测序结果显示,BGT预处理能几乎完全阻断mscd-B5对5hmC的脱氨(从24%降至1%),而不影响对5mC(62%)和C(0.2%)的作用。第二种流程旨在最大化信噪比,用于超高灵敏度检测:mscd-B5将5mC转化为胸腺嘧啶(T),将C转化为尿嘧啶(U)。随后使用尿嘧啶DNA糖基化酶(Uracil-DNA Glycosylase, UDG)和DNA糖基化酶-裂解酶VIII混合物(统称USER酶)处理,该酶能特异性切除U并断裂DNA骨架,从而在后续使用标准高保真聚合酶(如Q5,不能扩增含U模板)进行PCR时,选择性消除由背景C脱氨产生的DNA片段。经过USER/Q5处理,5mC与C脱氨率的差异从使用Q5U时的约20倍,大幅提升至超过4800倍,背景C-to-T转换率降至平均0.02%,接近测序本底错误率。
研究团队系统评估了mscd-B5方法的性能。灵敏度测试表明,该方法可以稳定检测到低至0.1%的甲基化水平。在应用方面,他们成功将mscd-B5用于人类基因组(NA12878细胞系)的甲基化测序。测序数据与EM-seq和纳米孔测序(Nanopore)的结果高度一致,证明其准确性。同时,由于mscd-B5只改变约1-2%的C(即5mC),基因组绝大部分序列保持不变,因此其测序准确性在非CpG位点与标准DNA-seq相当,实现了甲基组(methylome)和基因组(genome)的同时测序。研究还展示了该方法在复杂样本中的应用潜力,例如:1)在混合了1%低甲基化细胞(DNMT1/DNMT3B双敲除HCT116)DNA的样本中,成功检测到目标低水平甲基化信号;2)结合BGT处理,应用于富含5hmC和非CpG甲基化的人类脑组织DNA,揭示了神经元中DNMT3a偏好的CpAC序列甲基化模式,并证实脑组织中甲基化区域通常是5mC和5hmC的混合物;3)应用于细胞游离DNA(cfDNA),观察到与核小体包裹相关的特征性片段化模式及甲基化水平与片段大小的相关性。
除了mscd-B5,研究者还扩展探索了其同源酶。他们从宏病毒组数据库和MetaGPA筛选中克隆并表达了284个推定的脱氨酶,其中56个有活性,32个显示出对5mC的选择性。对其中13个同源酶的高通量测序分析证实,5mC选择性脱氨活性在脱氧胞苷酸脱氨酶超家族中广泛存在且多系进化,表明通过少量关键活性位点残基的突变即可获得这种特异性。
本研究的结论是,通过MetaGPA方法成功发现了一类源自噬菌体的新型胞苷脱氨酶(以mscd-B5为代表),它们能够特异性地将5mC和5hmC直接脱氨为T和5hmU,而对未修饰的C活性极低。基于此开发的直接甲基化测序方法,具有高灵敏度(检测限达0.1%)、高特异性、DNA损伤小、与标准分子生物学流程兼容性好、并能实现甲基组与基因组同步测序等显著优势。这为表观遗传学研究,特别是在需要检测低丰度甲基化、分析cfDNA、进行多组学整合分析等应用场景中,提供了一种强有力的新工具。
该研究的亮点在于:1)重要的科学发现:首次报道了具有5mC/5hmC选择性的脱氨酶,挑战了传统脱氨酶的作用范式。2)创新的方法学:成功应用MetaGPA这一表型-基因型关联筛选策略,从宏病毒组中高效挖掘出具有特殊催化功能的酶。3)强大的技术应用:开发了一种全新的、基于直接转化的超高灵敏度甲基化测序方案,解决了现有间接方法(如亚硫酸氢盐测序)的诸多痛点。4)广泛的适用性:证明了该方法在多种复杂生物学样本(人类基因组、脑组织DNA、cfDNA)中的有效性和高灵敏度。5)机制与进化启示:发现5mC选择性脱氨酶在噬菌体中多系分布,可能与噬菌体利用完全甲基化DNA并合成dTTP的独特核苷酸代谢途径有关,为理解病毒-宿主相互作用提供了新视角。
此外,研究还附带发现,常用于甲基化测序对照的、来自dcm-6大肠杆菌菌株的lambda DNA实际上存在微弱的残留DCM甲基转移酶活性,这凸显了mscd-B5方法极高的灵敏度,也提醒领域内需谨慎选择和使用“未甲基化”对照。