分享自:

基于纳米孔片段重组策略的聚糖测序

期刊:Journal of the American Chemical SocietyDOI:10.1021/jacs.5c22760

基于纳米孔碎片重组策略的聚糖测序技术研究

本研究由来自中国科学院上海药物研究所、沈阳药科大学等机构的Bingqing XiaGuangda YaoJiamei FanFangyu WeiJianling TanPingan LiLiuqing Wen以及Zhaobing Gao等人共同完成。研究成果以《Nanopore-based glycan sequencing via a fragmentation-reassembly strategy》为题,发表于J. Am. Chem. Soc.,论文在线发表日期为2026年2月24日,接收于2026年2月19日,首次提交于2025年12月18日。

学术背景

聚糖是细胞生物学过程中至关重要的调节因子。然而,聚糖结构的高度异质性使其测序成为糖科学领域长期存在的挑战。纳米孔技术提供了一种无标记、单分子结构分析的强大工具,已被用于核酸和肽段的测序,这为将其应用于结构更复杂的聚糖测序奠定了基础。研究团队前期已提出了基于纳米孔的聚糖解码的三种概念性策略:水解测序、链式测序和组装测序,并构建了聚糖的电学指纹图谱库,证实了将离子电流特征与聚糖结构特征相关联的可行性。尽管水解测序和链式测序策略取得了进展,但在应用于高度分支的复杂聚糖时仍面临局限性。为了解决非线性拓扑结构带来的信号解读挑战以及酶解可能产生的碎片覆盖不全问题,团队提出了“碎片化-重组”测序策略。该策略的基本原理是将复杂聚糖切割成碎片,利用纳米孔识别这些碎片,然后通过算法规则将其重新组装成完整的聚糖序列。本研究旨在首次通过实验验证这种基于纳米孔的碎片重组测序策略的可行性。

详细研究流程

本研究包含三个主要阶段:聚糖碎片化与信号采集、自动化信号处理、以及结构整合。研究以双天线复杂型N-聚糖(N-glycan-1, NG1)为模型底物。

1. 聚糖碎片化与信号采集 首先,选择并纯化了具有高灵敏度的α-溶血素(α-HL)突变体纳米孔作为糖链传感器。所有纳米孔记录均在对称缓冲液条件下进行。模型聚糖NG1使用两种外切糖苷酶(Nana和GalH)进行可控的酶解,理论上产生四种不同的碎片(NF1, NF2, NF3, NF4),这些碎片在结构上存在异构体和链长差异。将这四种碎片标准品分别单独引入纳米孔系统。通过施加跨膜电压,记录每个碎片通过纳米孔时产生的特征性电流阻断事件。提取的关键信号特征包括标准化电流阻断(δI1/I0)和停留时间。通过测量不同浓度下的信号,确认了事件频率与浓度呈线性关系,而δI1/I0保持不变,证实了观测到的是单分子事件。重复性实验显示信号分布稳定,从而为每种碎片建立了二维电学指纹图谱。

2. 自动化信号处理与碎片识别 为了实现高通量、自动化的碎片识别,研究开发了信号到结构的映射算法。该算法从每个电流阻断事件中提取多维特征,包括标准化电流阻断(δI1/I0)、停留时间(time)、谱熵(Spen)、近似熵(Spce)和谱质心(Spce)。使用合成的聚糖碎片标准品信号构建了参考数据集。经过HDBSCAN算法去噪后,将数据分为训练集、验证集和测试集。研究评估了10种常见的监督学习模型,其中XGBoost模型在识别四种目标碎片时达到了最高的93.71%的分类准确率。为了验证模型的鲁棒性,研究将具有结构差异(如链长差异、分支模式差异)的两种碎片混合物引入纳米孔,并利用训练好的XGBoost分类器对混合物信号进行自动预测。结果显示,模型能够准确区分混合物中的不同碎片。此外,研究还模拟了存在酶解副产物(非目标N-聚糖碎片NI1-NI4)干扰的更复杂场景,以及改变目标碎片相对丰度的条件,结果显示分类器仍能稳定识别目标碎片,证明了该机器学习框架在异质混合物条件下的鲁棒性。

3. 结构整合与完整序列重建 这是本研究的核心创新步骤。为了评估组装测序的可行性,研究设计了模拟NG1酶解途径的三种水解物类似物混合物,其复杂程度依次增加。这些混合物被引入纳米孔系统,并使用预训练的机器学习模型进行碎片身份预测,结果成功识别了底物NG1及所有预期的关键碎片产物。接着,研究在一个模拟未知聚糖序列的时间分辨降解过程中验证了完整的测序流程。将NG1与糖苷酶混合物在生理条件下孵育,在不同时间点取样,并通过薄层色谱和纳米孔监测水解进程。选择水解30分钟后的裂解液作为测试样本。纳米孔采集信号后,提取特征并输入机器学习模型进行自动碎片预测,成功识别出NF1-NF4四个目标碎片。随后,研究构建了一个基于集合论的从头组装算法管道来重建完整的聚糖序列。其核心逻辑是:输入未知聚糖G,若其纳米孔信号能在数据库中找到,则直接输出序列;若找不到,则进行可控水解产生碎片,并重复测量-查询循环,直至能从数据库中检索到碎片结构。算法将预测出的碎片结构视为一个有限结构集合F = (F1, F2, …, Fn)。组装过程首先计算所有碎片级集合的交集(F1 ∩ F2 ∩ … ∩ Fn),以识别共享的结构元素(即聚糖核心)。然后,应用并集操作(F1 ∪ F2 ∪ … ∪ Fn)来枚举扩展的结构元素(集合S),包括侧链、分支和修饰,从而捕获碎片集合所蕴含的完整分支多样性。接着,根据化学和结构定义的排除规则检查集合S中的逻辑不相容性,并将涉及冲突的结构候选(集合T)通过集合差操作从S中移除。经过这一系列交集、并集和差集的逻辑整合,管道最终输出一个化学一致且完全解析的聚糖序列G。在本案例中,算法通过交集分析确定了一个共享的五糖核心,通过并集操作整合了碎片特有的末端唾液酸化分支特征,经过滤除不兼容连接后,成功重建了NG1的完整双天线、双唾液酸化结构。该结果通过高分辨电喷雾电离质谱分析得到了进一步验证。

主要研究结果

  1. 成功建立了聚糖碎片结构与纳米孔电流信号的关联库。研究证实,α-HL突变体纳米孔能够高灵敏度地检测并区分不同的聚糖碎片,包括结构高度相似的异构体(如NF1与NF2,其唾液酸连接方式不同)以及链长变体(如NF3与NF4)。二维指纹图谱显示,不同碎片在δI1/I0和停留时间参数上具有独特且可区分的分布,为基于碎片的测序策略提供了物理基础。
  2. 开发了高效的自动化碎片识别机器学习模型。基于XGBoost的模型对四种目标碎片的分类准确率达到93.71%。该模型在双组分混合物、存在结构相似干扰物以及不同丰度比的复杂混合物中均表现稳定,能够从异质信号中准确提取并识别目标碎片,为下游的组装测序提供了可靠的信息输入。
  3. 首次实验验证并实现了基于纳米孔的碎片重组聚糖测序。通过模拟水解物混合物的测试,证明了该流程能够从包含底物、目标碎片及非目标碎片的复杂混合物中准确识别关键结构成分。更重要的是,在模拟未知聚糖的完整测序实验中,系统通过对NG1酶解产物的纳米孔检测和机器学习分析,成功预测出NF1-NF4四个碎片。随后,基于集合论的算法整合这些碎片信息,通过逻辑运算(交集确定核心、并集整合分支、差集排除矛盾)成功重建了NG1的完整、准确的化学结构。这一结果与高分辨质谱分析相符,且纳米孔提供了质谱难以捕捉的立体化学和连接特异性信息。
  4. 证明了测序策略在复杂环境中的鲁棒性。研究在三种具有挑战性的实际场景下测试了该策略:(a)结构相似性干扰:将目标聚糖NG1与其高度同源的NG2混合,系统能选择性识别NG1衍生的碎片并正确组装其序列,有效排除了相似结构的干扰。(b)结构差异干扰:将NG1与骨架类型不同的线性聚糖(Decasaccharide)混合,系统仍能准确识别并重建NG1序列。(c)生物背景干扰:在Huh-7全细胞裂解液的复杂背景下,系统依然能够成功提取目标碎片信号并完成NG1序列的准确重建。
  5. 展示了方法的可扩展性。研究将测序工作流程成功应用于另一个目标聚糖NG3(其与NG1的糖苷键连接不同),识别出其特有的碎片组(NF1, NF3, NF5, NF6),并通过逻辑整合输出了正确的NG3结构。这证明该方法不限于单一模型聚糖,具备向更广泛聚糖类型推广的潜力。

研究结论与价值

本研究首次通过实验概念验证了结合纳米孔碎片识别与集合论重建框架可以实现聚糖组装测序。在模型N-聚糖的范围内,基于α-HL突变体纳米孔获得的碎片身份信息实现了对分支模式的高保真重建。其核心组装逻辑(交集、并集、差集操作)提供了一个计算框架,该框架借鉴了经典的重叠策略,同时降低了对测量完整性和支撑数据库规模的依赖。继先前的水解测序和链式测序验证工作之后,本研究完成了一个用于从头聚糖解码的模块化纳米孔框架的初步验证。

科学价值:该研究为解析复杂、高度分支的聚糖结构提供了一种全新的、互补的单分子测序思路。它表明,即使只获取了部分碎片信息,通过合理的计算框架也能实现连贯的结构推断,这减少了对完全覆盖的碎片集的依赖。研究构建的“测量-识别-组装-数据库扩充”的反馈式工作流程,为建立一个可扩展、通用的聚糖结构分析平台奠定了基础。 应用价值:该方法在存在结构相似污染物、异构体变体以及大量非糖生物分子(如蛋白质、脂质、核酸)的复杂实际样本中表现出良好的鲁棒性,凸显了其在真实生物样本(如细胞裂解液、血清等)中应用的潜力,有望推动糖组学的高分辨率、规模化分析。

研究亮点

  1. 首创性:这是首次报道的基于纳米孔的单分子分支聚糖测序实验演示,填补了该策略在实验验证上的空白。
  2. 方法学创新:将可控酶解、纳米孔单分子传感、机器学习分类与集合论计算重建巧妙结合,形成了一套完整且创新的聚糖测序工作流程。
  3. 计算框架新颖:提出的基于集合论(交、并、差)的逻辑整合算法,为从部分、可能重叠的碎片信息中重建复杂分支结构提供了一种强大且直观的计算范式。
  4. 高鲁棒性与通用性潜力:系统在结构相似干扰、不同骨架类型干扰以及复杂生物背景下均能准确工作,并成功应用于第二种聚糖,展示了其应对实际样品复杂性和结构多样性的能力及可扩展性。
  5. 高精度:对模型分支聚糖的重建保真度达到了93.71%,证明了该策略的可靠性。

其他有价值的内容

研究也坦诚地指出了当前方法的局限性:首先,组装测序依赖于已定义的碎片-信号库,要覆盖天然聚糖的化学多样性需要大量的实验和计算工作。其次,对于高度分支或成分异质的结构,不完全的水解、瞬时中间体或低丰度碎片可能产生多个可接受的重建结果,这需要进一步优化推理规则和概率加权方案。最后,要将该方法推广到更广泛的聚糖类型,有赖于纳米孔孔道设计、酶解控制和分类器分辨能力的进一步提升。未来,采用更简单的切割化学方法、结合大小碎片信息、以及在测序过程中动态更新碎片数据库等策略,将有望增强该方法的通用性和可扩展性。作者展望,未来水解测序、链式测序和碎片重组测序的多策略协同,将使纳米孔技术能够应对更广泛的聚糖测序挑战。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com