分享自:

基于DNA三通连接构建复杂多样的DNA序列

期刊:natureDOI:https://doi.org/10.1038/s41586-025-10006-0

这篇研究论文由加州理工学院、加州大学洛杉矶分校等机构的Noah Evan Robinson、Weilin Zhang、Rajesh Ghosh、Bryan Gerber、Hanqiao Zhang、Charles Sanfiorenzo、Sixiang Wang、Dino Di Carlo和Kaihang Wang(通讯作者)共同完成,题为《Construction of complex and diverse DNA sequences using DNA three-way junctions》,于2026年发表在*Nature*期刊上。

研究背景与目标: 本研究隶属于合成生物学和DNA组装技术领域。随着DNA测序和编辑技术(如长读长测序和CRISPR-Cas系统)的飞速发展,从头合成(de novo)长片段、复杂且多样化的DNA序列的能力却严重滞后,成为工程化研究和理解生物学的关键瓶颈。当前所有DNA组装技术(如聚合酶循环组装(PCA)、Gibson组装、Golden Gate组装等)都依赖于最终构建序列本身所含的信息(如互补的单链粘末端overhangs)来指导片段连接。这导致了一个根本性矛盾:用于指导组装的序列(粘末端)本身会成为最终序列的一部分,因此无法在不改变最终产物序列的前提下,对这些引导序列进行独立、广泛的优化,以最大化组装效率和特异性。这种内在局限性导致了错误组装,从而限制了合成产物的效率、大小和复杂性。

为解决这一根本性难题,研究团队的目标是开发一种全新的DNA组装技术,旨在“解耦”组装指令信息与最终DNA序列信息,从而实现真正的“序列无关”组装。其核心是发明一种名为“Sidewinder”的DNA组装技术,该技术利用DNA三臂连接(three-way junction, 3WJ)结构,引入不参与最终产物的、可高度优化的“侧向螺旋”来指导组装,从而能够稳健地构建任何长度、高复杂度(如高GC含量、高重复序列)的DNA序列,并能高效构建大规模组合文库。

详细工作流程: 本研究的工作流程主要围绕Sidewinder技术的开发、验证、应用和性能评估展开,可分为以下几个关键步骤:

  1. Sidewinder技术原理设计: 这是本研究的核心创新。与传统的双链连接(2WJ)不同,Sidewinder利用DNA三臂连接结构。每个组装片段由一条“条形码”寡核苷酸和一条“编码”寡核苷酸退火形成异源双链。片段末端包含两个关键部分:一是短的“立足点”序列(t/t*,类似传统粘末端),二是长的、唯一的“Sidewinder条形码”序列(b/b*)。关键突破在于,条形码序列仅用于指导组装,通过形成“侧向螺旋”(Sidewinder helix)将两个片段精确对齐,并促使互补但不稳定的立足点靠近、稳定,最终通过连接酶连接。连接后,侧向螺旋可以被移除,从而在最终序列中无痕恢复标准的双链连接。这实现了组装指令(条形码)与最终编码序列(立足点及其连接产物)的物理分离。

  2. 实验设计与实施:

    • 可行性验证: 首先设计了两片段连接实验,设置了匹配/不匹配的立足点和条形码的四种组合。仅当两个片段的条形码和立足点均互补时,才能观察到连接产物,证明了Sidewinder组装的双重特异性要求。
    • 规模化组装: 将目标序列(如luxABC操作子片段)拆分成5、10、20和40个片段。通过商业合成120碱基长的寡核苷酸,设计条形码和编码链,经过磷酸化、退火形成Sidewinder片段,纯化后混合进行Sidewinder组装反应。组装后,通过DNA聚合酶延伸引物,利用已连接的编码链为模板,置换或降解条形码链,恢复2WJ,并通过选择性PCR扩增产物。同时,使用传统的PCA、Gibson组装、4碱基/10碱基粘末端连接等方法进行平行对比实验。
    • 复杂序列组装: 为证明其序列无关性,选择了两个极具挑战性的序列:一是人载脂蛋白E(ApoE)的高GC含量(70%,局部达95%)编码序列,拆分为12个片段进行组装;二是来自Glyphotaelius pellucidus丝蛋白H-Fibroin的高度重复序列片段。为了将挑战推到极限,在H-Fibroin的五片段组装中,特意为所有片段设计了完全相同的立足点序列,这在传统方法中是不可想象的。
    • 一锅法并行组装: 将编码不同颜色表型标记蛋白(mScarlet,mGl,aeBlue)的三个独立的十片段组装体系混合在同一个反应管中进行Sidewinder组装。组装后,使用针对各构件的特异性引物对或通用引物对,通过PCR分别或共同扩增出目标产物。随后将产物克隆到大肠杆菌中验证表型。
    • 组合文库构建: 将增强型绿色荧光蛋白(eGFP)基因拆分为十片段Sidewinder组装,并在预先设计的17个位点上引入密码子变异,构建理论大小为442,368种变体的组合文库。通过混合包含不同突变的编码寡核苷酸与对应的条形码寡核苷酸,进行大规模并行组装。组装产物克隆后,使用荧光激活细胞分选(FACS)结合水凝胶微粒封装技术,对文库中约500万个克隆进行高通量荧光表型筛选。
  3. 数据分析方法:

    • 片段水平分析: 使用牛津纳米孔测序(Nanopore)或太平洋生物科学高保真长读长测序(PacBio)对组装产物进行测序。通过BLASTN将每个读段与所有片段参考序列比对,根据片段是否按正确顺序、无缝连接来分类读段为:正确组装、错误组装、PCR假象、测序假象或条形码假象。
    • 连接点水平分析: 开发了独立的分析流程,从原始测序数据中搜索所有可能的三臂连接点(包括正确和错误连接)。通过设定严格的比对分数阈值,识别并手动验证所有潜在的误连接事件,从而计算连接错误率。
    • 文库多样性分析: 对PacBio数据进行碱基水平的单核苷酸多态性分析。在密码子水平、片段水平和基因水平上,计算观察到的突变谱分布,并与理论分布进行比较,评估文库覆盖度。计算每个寡核苷酸的碱基错误率,并估计完美无突变基因的比例。

主要结果: 1. 基本原理验证成功: 凝胶电泳结果清晰显示,只有当条形码和立足点均匹配时,两片段才能有效连接,证明了Sidewinder设计的可行性和双重控制机制。

  1. 大规模多片段组装表现卓越: Sidewinder成功组装了5、10、20和40个片段的lux操作子片段,琼脂糖凝胶显示单一、清晰的目标条带。而PCA在超过5片段后即告失败,10碱基粘末端法在10片段成功但在20片段失败。纳米孔测序定量分析显示,40片段Sidewinder组装产物中,96.72%的读段是Sidewinder产物,且这些产物100%是正确的40片段完整组装。在超过22,533个检测到的连接点中,未发现任何错误连接。

  2. 复杂DNA序列构建能力突出:

    • 高GC序列: Sidewinder成功组装了12片段的高GC含量ApoE序列,凝胶显示单一强条带。测序分析表明,99.89%的读段为Sidewinder产物,且100%正确组装,在50,636个检测到的连接点中无一错误。
    • 高重复序列且立足点相同: 在故意使用完全相同立足点的极端条件下,Sidewinder仍能成功组装五片段的H-Fibroin重复序列。测序分析显示,99.52%的读段为Sidewinder产物,其中99.19%正确组装。连接点分析显示错误连接率仅为0.23%(31/13416),展示了极高的组装保真度。相比之下,所有传统方法对这两种复杂序列的组装均告失败。
  3. 一锅法并行组装实现高保真: 将三个不同基因的组装体系混合后,Sidewinder能同时进行,并通过特异性PCR扩增出各自单一、纯净的目标条带。纳米孔测序显示,各单独扩增产物的正确组装比例均超过95%,且连接错误率极低(约1/10,000)。克隆转化后,分别扩增的构建体只产生预期颜色的菌落,而混合池则产生了所有三种预期表型的菌落分布。

  4. 大规模组合文库构建覆盖度高、保真度极佳: Sidewinder成功构建了理论大小为44万+的eGFP突变文库,凝胶显示强目标条带。PacBio测序显示,98.88%的读段是完整的十片段正确组装。连接点分析揭示了三臂连接的误连率仅为约百万分之一(1 in 960,617)。文库覆盖度极高,观测到了405,778种变异,覆盖了理论文库的91.7%以上。通过FACS筛选,成功从文库中分选出了发出蓝、绿、黄、红等不同荧光的蛋白变体,证实了所构建DNA序列的功能性。

结论与意义: 本研究开发并验证了Sidewinder——一种基于DNA三臂连接的革命性DNA组装技术。它从根本上解决了传统方法中组装指令与最终序列耦合的固有矛盾,实现了真正的序列无关组装。该技术能够以前所未有的保真度、规模和复杂度从头合成DNA,包括大规模多片段组装、高GC/高重复序列、并行多构建体组装以及高覆盖度的组合文库。

其科学价值在于为合成生物学和基因工程提供了一个全新的、功能强大的“写作”工具,极大地扩展了可合成DNA序列的设计空间。应用价值广泛,可应用于合成基因组学、人工智能辅助的蛋白质设计(快速将计算设计转化为实体分子)、新型生物材料开发、蛋白质定向进化以及需要高复杂度DNA构建体的基础研究等领域。Sidewinder有望弥合DNA“读”、“编”、“写”能力之间的差距,推动生物工程进入新阶段。

研究亮点: 1. 原理创新: 首次将DNA三臂连接结构用于DNA组装,创造性地通过“侧向螺旋”将组装信息与编码信息解耦,是DNA组装范式的根本性转变。 2. 性能突破: 在组装规模(40片段)、序列复杂度(极高GC/重复)、组装保真度(误连率约百万分之一)和并行处理能力上,均显著超越了所有现有主流技术。 3. 应用广泛性: 不仅证明了基础组装能力,还成功应用于极具挑战性的组合文库构建和功能性筛选,展示了其解决实际生物学问题的强大潜力。 4. 数据扎实: 结合了凝胶电泳、纳米孔测序和PacBio高保真测序等多层次、定性和定量的严谨分析,特别是连接点水平的精确定量分析,为技术的超高保真度提供了坚实证据。

其他有价值内容: 研究还探讨了技术细节,如条形码和立足点的设计策略(可手工选择或使用NUPACK软件包定制)、不同连接酶和反应条件的优化、以及如何避免PCR假象等,为其他研究者应用该技术提供了实用指南。文中也指出,当前技术的最终限制主要来自输入寡核苷酸合成本身的质量(错误率),而非组装过程,这指明了未来与更高质量寡核苷酸合成技术结合可进一步提升合成通量和精度的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com