本研究由来自中国科学院上海药物研究所、沈阳药科大学等机构的Bingqing Xia、Guangda Yao、Jiamei Fan、Fangyu Wei、Jianling Tan、Pingan Li、Liuqing Wen以及Zhaobing Gao等人共同完成。研究成果以《Nanopore-based glycan sequencing via a fragmentation-reassembly strategy》为题,发表于J. Am. Chem. Soc.,论文在线发表日期为2026年2月24日,接收于2026年2月19日,首次提交于2025年12月18日。
聚糖是细胞生物学过程中至关重要的调节因子。然而,聚糖结构的高度异质性使其测序成为糖科学领域长期存在的挑战。纳米孔技术提供了一种无标记、单分子结构分析的强大工具,已被用于核酸和肽段的测序,这为将其应用于结构更复杂的聚糖测序奠定了基础。研究团队前期已提出了基于纳米孔的聚糖解码的三种概念性策略:水解测序、链式测序和组装测序,并构建了聚糖的电学指纹图谱库,证实了将离子电流特征与聚糖结构特征相关联的可行性。尽管水解测序和链式测序策略取得了进展,但在应用于高度分支的复杂聚糖时仍面临局限性。为了解决非线性拓扑结构带来的信号解读挑战以及酶解可能产生的碎片覆盖不全问题,团队提出了“碎片化-重组”测序策略。该策略的基本原理是将复杂聚糖切割成碎片,利用纳米孔识别这些碎片,然后通过算法规则将其重新组装成完整的聚糖序列。本研究旨在首次通过实验验证这种基于纳米孔的碎片重组测序策略的可行性。
本研究包含三个主要阶段:聚糖碎片化与信号采集、自动化信号处理、以及结构整合。研究以双天线复杂型N-聚糖(N-glycan-1, NG1)为模型底物。
1. 聚糖碎片化与信号采集 首先,选择并纯化了具有高灵敏度的α-溶血素(α-HL)突变体纳米孔作为糖链传感器。所有纳米孔记录均在对称缓冲液条件下进行。模型聚糖NG1使用两种外切糖苷酶(Nana和GalH)进行可控的酶解,理论上产生四种不同的碎片(NF1, NF2, NF3, NF4),这些碎片在结构上存在异构体和链长差异。将这四种碎片标准品分别单独引入纳米孔系统。通过施加跨膜电压,记录每个碎片通过纳米孔时产生的特征性电流阻断事件。提取的关键信号特征包括标准化电流阻断(δI1/I0)和停留时间。通过测量不同浓度下的信号,确认了事件频率与浓度呈线性关系,而δI1/I0保持不变,证实了观测到的是单分子事件。重复性实验显示信号分布稳定,从而为每种碎片建立了二维电学指纹图谱。
2. 自动化信号处理与碎片识别 为了实现高通量、自动化的碎片识别,研究开发了信号到结构的映射算法。该算法从每个电流阻断事件中提取多维特征,包括标准化电流阻断(δI1/I0)、停留时间(time)、谱熵(Spen)、近似熵(Spce)和谱质心(Spce)。使用合成的聚糖碎片标准品信号构建了参考数据集。经过HDBSCAN算法去噪后,将数据分为训练集、验证集和测试集。研究评估了10种常见的监督学习模型,其中XGBoost模型在识别四种目标碎片时达到了最高的93.71%的分类准确率。为了验证模型的鲁棒性,研究将具有结构差异(如链长差异、分支模式差异)的两种碎片混合物引入纳米孔,并利用训练好的XGBoost分类器对混合物信号进行自动预测。结果显示,模型能够准确区分混合物中的不同碎片。此外,研究还模拟了存在酶解副产物(非目标N-聚糖碎片NI1-NI4)干扰的更复杂场景,以及改变目标碎片相对丰度的条件,结果显示分类器仍能稳定识别目标碎片,证明了该机器学习框架在异质混合物条件下的鲁棒性。
3. 结构整合与完整序列重建 这是本研究的核心创新步骤。为了评估组装测序的可行性,研究设计了模拟NG1酶解途径的三种水解物类似物混合物,其复杂程度依次增加。这些混合物被引入纳米孔系统,并使用预训练的机器学习模型进行碎片身份预测,结果成功识别了底物NG1及所有预期的关键碎片产物。接着,研究在一个模拟未知聚糖序列的时间分辨降解过程中验证了完整的测序流程。将NG1与糖苷酶混合物在生理条件下孵育,在不同时间点取样,并通过薄层色谱和纳米孔监测水解进程。选择水解30分钟后的裂解液作为测试样本。纳米孔采集信号后,提取特征并输入机器学习模型进行自动碎片预测,成功识别出NF1-NF4四个目标碎片。随后,研究构建了一个基于集合论的从头组装算法管道来重建完整的聚糖序列。其核心逻辑是:输入未知聚糖G,若其纳米孔信号能在数据库中找到,则直接输出序列;若找不到,则进行可控水解产生碎片,并重复测量-查询循环,直至能从数据库中检索到碎片结构。算法将预测出的碎片结构视为一个有限结构集合F = (F1, F2, …, Fn)。组装过程首先计算所有碎片级集合的交集(F1 ∩ F2 ∩ … ∩ Fn),以识别共享的结构元素(即聚糖核心)。然后,应用并集操作(F1 ∪ F2 ∪ … ∪ Fn)来枚举扩展的结构元素(集合S),包括侧链、分支和修饰,从而捕获碎片集合所蕴含的完整分支多样性。接着,根据化学和结构定义的排除规则检查集合S中的逻辑不相容性,并将涉及冲突的结构候选(集合T)通过集合差操作从S中移除。经过这一系列交集、并集和差集的逻辑整合,管道最终输出一个化学一致且完全解析的聚糖序列G。在本案例中,算法通过交集分析确定了一个共享的五糖核心,通过并集操作整合了碎片特有的末端唾液酸化分支特征,经过滤除不兼容连接后,成功重建了NG1的完整双天线、双唾液酸化结构。该结果通过高分辨电喷雾电离质谱分析得到了进一步验证。
本研究首次通过实验概念验证了结合纳米孔碎片识别与集合论重建框架可以实现聚糖组装测序。在模型N-聚糖的范围内,基于α-HL突变体纳米孔获得的碎片身份信息实现了对分支模式的高保真重建。其核心组装逻辑(交集、并集、差集操作)提供了一个计算框架,该框架借鉴了经典的重叠策略,同时降低了对测量完整性和支撑数据库规模的依赖。继先前的水解测序和链式测序验证工作之后,本研究完成了一个用于从头聚糖解码的模块化纳米孔框架的初步验证。
科学价值:该研究为解析复杂、高度分支的聚糖结构提供了一种全新的、互补的单分子测序思路。它表明,即使只获取了部分碎片信息,通过合理的计算框架也能实现连贯的结构推断,这减少了对完全覆盖的碎片集的依赖。研究构建的“测量-识别-组装-数据库扩充”的反馈式工作流程,为建立一个可扩展、通用的聚糖结构分析平台奠定了基础。 应用价值:该方法在存在结构相似污染物、异构体变体以及大量非糖生物分子(如蛋白质、脂质、核酸)的复杂实际样本中表现出良好的鲁棒性,凸显了其在真实生物样本(如细胞裂解液、血清等)中应用的潜力,有望推动糖组学的高分辨率、规模化分析。
研究也坦诚地指出了当前方法的局限性:首先,组装测序依赖于已定义的碎片-信号库,要覆盖天然聚糖的化学多样性需要大量的实验和计算工作。其次,对于高度分支或成分异质的结构,不完全的水解、瞬时中间体或低丰度碎片可能产生多个可接受的重建结果,这需要进一步优化推理规则和概率加权方案。最后,要将该方法推广到更广泛的聚糖类型,有赖于纳米孔孔道设计、酶解控制和分类器分辨能力的进一步提升。未来,采用更简单的切割化学方法、结合大小碎片信息、以及在测序过程中动态更新碎片数据库等策略,将有望增强该方法的通用性和可扩展性。作者展望,未来水解测序、链式测序和碎片重组测序的多策略协同,将使纳米孔技术能够应对更广泛的聚糖测序挑战。