分享自:

基于纳米孔的高通量传感用于肽谱分析和蛋白质鉴定

期刊:Nature CommunicationsDOI:10.1038/s41467-026-69628-1

本文档属于类型a,是一篇关于单分子纳米孔传感技术在蛋白质组学中应用的原创性研究论文。

一项用于肽谱分析和蛋白质鉴定的高通量纳米孔平行传感平台研究

一、 研究团队与发表信息

本研究由来自中国多家研究机构的科研人员共同完成。第一作者及共同第一作者为Ji Wang, Junyi Chen, Hailin Pan, Fengqin Luo, Wenbing Qin。通讯作者为Yuliang Dong, Siqi Liu 和 Xun Xu。研究团队主要来自深圳华大生命科学研究院(State Key Laboratory of Genome and Multi-omics Technologies, BGI Research, Shenzhen),以及其他位于武汉、杭州的华大研究机构。该研究成果于2026年2月4日被接受,并发表在《自然·通讯》(*Nature Communications*)期刊上,文章编号为 (2026) 17:3058。

二、 学术背景与研究目标

本研究属于生物传感与蛋白质组学交叉领域,具体聚焦于纳米孔单分子传感技术在蛋白质分析中的应用。纳米孔技术最初在DNA测序领域引发革命,因其能够对单分子进行直接、实时分析。将其应用范式扩展到蛋白质分析,有望为蛋白质组学带来突破性进展,实现对复杂生物混合物中蛋白质的高通量、高灵敏度和高精度检测。然而,尽管已有概念验证性突破,将基于纳米孔的肽和蛋白质分析转化为稳健、广泛适用的技术仍面临几个根本性限制:1)对模型系统的依赖,常使用化学修饰肽或特定序列的工程蛋白,缺乏分析未修饰天然样品的有效策略;2)大多数方法是分析物特异性的,需要定制功能化孔或特定生化条件,限制了研究间的可比性和交叉验证;3)主流单通道平台数据通量低,需要进行数据筛选,可能影响后续统计结论的稳健性。缺乏一个集成的、从天然样品制备、高通量数据采集到自动化分析的端到端工作流程,使得纳米孔肽/蛋白质分析仍缺乏实际应用。

本研究的核心目标是开发一个平行、高通量的传感平台,用于分析天然蛋白质/肽,提供一个全面的端到端解决方案。具体而言,研究旨在:1)开发一个简化的肽库制备方案,与优化的分析流程相结合,以增强对天然肽及其翻译后修饰(PTMs)的精确分析;2)利用纳米孔传感平台的高灵敏度,展示其在抗体和天然蛋白质表征中的应用;3)通过肽指纹图谱策略,实现对蛋白质的直接、明确区分和鉴定。

三、 详细研究流程

本研究构建了一个完整的工作流程,主要包括三个核心环节:肽库的构建与制备、高通量纳米孔传感数据采集、以及基于人工智能的数据分析。

第一环节:肽库的构建与制备(OPO文库制备) 研究团队开发了一种名为“寡核苷酸-肽-寡核苷酸”(Oligo-Peptide-Oligo, OPO)的偶联物构建方法,使其兼容DNA马达驱动的纳米孔传感系统。该流程包含三个关键步骤: 1. 蛋白质片段化与肽末端修饰:使用LysC内切蛋白酶消化蛋白质,产生C端为赖氨酸的肽段。利用温和高效的二氮转移试剂氟磺酰叠氮(FSO₂N₃),在室温下将肽段N端的α-氨基和C端赖氨酸的ε-氨基转化为叠氮化物,使其可用于后续点击化学反应。该方法对超过50种测试肽段均显示出高效率,但对于含多个N端酪氨酸或N端为脯氨酸的肽段效率较低。 2. DNA模板化偶联:采用DNA模板化偶联策略进行OPO组装。设计一个包含两条带有DBCO修饰的寡核苷酸(DNA1, DNA2)的DNA模板,与一条带有中心脱碱基位点的互补链(DNA3)退火。模板在空间上预组织反应物,通过邻近效应促进肽的两个末端分别与DNA1和DNA2高效偶联。DNA1和DNA2中额外引入的脱碱基位点旨在在测序过程中产生独特的传感信号,作为肽特异性信号两侧的标记。 3. 测序接头连接与文库纯化:将连接有T4 Dda解旋酶马达的测序接头与OPO偶联物连接,最后通过磁珠纯化富集最终OPO文库,去除副产物和过量接头。这种双末端偶联策略有助于文库纯化、提高捕获效率、优化信号分辨率,并实现客观的肽阻断信号提取。

第二环节:高通量纳米孔传感数据采集 研究采用了基于CsgG纳米孔的传感平台,利用其在阵列化DNA测序中已验证的实用性。原型设备包含256个独立的微孔阵列,CsgG蛋白被插入在集成微电极上形成的脂质双层中。在优化的离子条件下(0.5M KCl, 10 mM HEPES pH 8.0, 0.5 mM ATP, 1 mM MgCl₂, 180 mV偏压,5 kHz采样率),使用解旋酶马达控制OPO结构通过纳米孔。每个文库在2小时内可获取超过10万个易位事件。研究使用了一系列具有特定序列的合成肽,以及从三个人类模型蛋白(hNEDD8, hCOMMD6, hGABARAPL2)的LysC消化物中获得的肽段,用于后续模型训练和测试。

第三环节:人工智能驱动的数据分析流程(CNN-DM框架) 原始数据经过严格的质量过滤,去除持续时间异常、信号尖峰或不完整DNA侧翼序列的读数后,基于脱碱基位点特异性信号提取中心肽阻断信号。传统的单点指标分析(如平均阻断电流与开放孔电流之比 I/I₀、标准差std、停留时间τoff)区分能力有限。研究团队开发了一个创新的“密度矩阵”分析框架来捕捉肽信号独特的时空特征。 1. 密度矩阵生成:首先对每个信号迹线进行低通滤波和均匀下采样。然后计算这些处理后的迹线的软DTW重心,建立一个具有代表性的时间轮廓。接着使用动态时间规整将每个下采样的迹线与该重心对齐,以补偿个体易位速率的变化。最后,通过在对齐迹线的100个对应时间点上对I/I₀值进行分箱,构建一个二维直方图,即密度矩阵。该矩阵将看似嘈杂的时间信号转化为稳定、信息丰富的指纹。 2. 卷积神经网络分类与DM验证:开发了一个包含卷积层、批量归一化、激活函数、挤压-激励模块和空间注意力模块的CNN模型,用于对肽读数进行分类。数据集被分为训练集、验证集和测试集。在两步流程中,CNN初步分配的肽身份会与相应的参考DM进行交叉验证。只有当读数的时序信号模式与参考DM的概率分布表现出高度一致性,并超过预定义的相似性分数阈值时,该读数才会被保留用于下游分析。这种集成的CNN-DM方法显著提高了分类准确性。

四、 主要研究结果

研究结果系统地验证了该平台在肽谱分析、肽鉴定和蛋白质鉴定三个层面的能力。

1. 肽谱分析结果 * 单氨基酸变体区分:研究使用了一个包含20种天然氨基酸变体的模型肽库。虽然直接分类所有20种变体成功率有限,但按理化性质分组后,系统对氨基酸电荷表现出显著敏感性。区分带正电荷、带负电荷和中性氨基酸的准确率超过95%。进一步分析体积效应发现,系统能以超过92%的准确率区分具有大侧链和小侧链的中性氨基酸,但中等体积的氨基酸难以分辨。这表明海量数据使CNN-DM能够辨别与肽电荷和体积相关的细微但一致的物理化学特征。 * 肽异构体区分: * 同分异构体:区分亮氨酸和异亮氨酸这一蛋白质组学难题,在单个残基水平准确率约为70%。当挑战区分连续三个L或I的肽时,准确率略微提高至81%,表明微小的累积体积和/或构象差异被放大为可学习的纳米孔信号差异。 * 位置异构体:将可变残基移至C端以引入不对称性。尽管OPO文库构建存在N端或C端偶联的随机性,且肽在易位时呈“团块”构象,CNN仍成功实现了对所有研究的位置异构体的高精度分类(例如,1D/1D‘准确率达97.8%)。对于电荷分布不对称的肽,在N端进入、C端进入和混合进入文库的信号迹线中观察到了明显差异,突显了开发高效、定点偶联策略以通过确保肽进入方向一致来进一步提高分辨率的潜力。 * 翻译后修饰检测:系统对电荷和体积变化的敏感性为PTM区分提供了直接途径。对磷酸化和辛酰化(诱导显著的负电荷或大侧链变化)的研究获得了高分类准确率,其DM也显示出明显差异。相反,引入更细微变化的甲基化和乙酰化则难以分辨,即使对连续三个此类修饰的肽进行分类,准确率也仅停留在87%左右。在天然模型蛋白中,系统成功检测到了由显著电荷变化引起的Q40脱酰胺化,以及S87和S88的单/双磷酸化,其DM也清晰反映了这些差异。

2. 肽鉴定与抗体表征应用 研究展示了该平台在复杂肽混合物中精确鉴定肽的能力,并将其应用于抗肽抗体验证。 * C-肽抗体表位筛选:以C-肽为模型,设计了6个重叠肽段。CNN-DM分析对它们达到了97.2%的分类准确率。将这6个OPO文库等量混合后,与不同商业来源的抗体包被磁珠孵育,通过纳米孔传感分析富集的OPO偶联物,揭示了不同抗体的独特表位偏好。例如,两个据称识别不同表位、适用于夹心ELISA的抗体,均显著富集了同一个肽段,表明它们并非夹心检测的理想配对。而另一对抗体则分别优先结合不同的肽段,是夹心免疫测定的理想候选。此外,还发现抗体对不同肽段的富集效率与相应的读数输出量之间存在相关性,提示抗体-肽相互作用的亲和力可能与最终OPO文库读数输出量定量相关。 * 抗体亲和力半定量评估:使用Flag标签系统验证上述假设。将Flag肽及其四个突变体等摩尔混合,分别与两种抗Flag抗体孵育,超滤富集后进行OPO文库制备和传感分析。CNN-DM模型对这些类似肽的平均识别准确率为96.4%。对于一种抗体,各肽段的相对纳米孔读数丰度与其报道的结合亲和力呈强正相关,该结果也得到了表面等离子体共振验证。另一种抗体则显示出不同的选择性谱。这证明了该平台能够实现精确的表位筛选和半定量亲和力评估。

3. 蛋白质鉴定结果 研究采用肽指纹图谱策略进行蛋白质鉴定。首先,使用从三个目标蛋白LysC消化物衍生的24条合成肽制备OPO文库并训练CNN-DM模型,建立参考指纹图谱。随后,对纯化的蛋白质样品进行LysC消化和类似的文库组装,生成实验性OPO读数,并由CNN-DM模型根据参考图谱对这些读数进行分类,汇总完整的肽特征以实现蛋白质鉴定。CNN-DM框架实现了96.3%的分类准确率,显著高于单独使用CNN的93.5%。

在一个盲法鉴定任务中,研究制备了三个匿名样品(来自hp1, hp2, hp3的LysC消化物)。经过叠氮化物修饰和OPO文库构建后,纳米孔测序为每个样品生成超过30万个读数。使用预训练的CNN-DM模型分析,每个样品的读数正确地聚类成三个可预测的不同类别,这些分配结果得到了LC-ESI-MS的独立验证,证明了该方法在蛋白质鉴定中的稳健性。尽管整体准确率高,但也观察到高净负电荷肽段的相对丰度较低,且区分仅相差一个氨基酸的二肽(如hp1_2和hp2_6)代表了当前的分辨率极限。

五、 研究结论与意义

本研究展示了一个用于肽谱分析和蛋白质鉴定的简化纳米孔平行传感平台。该方法将温和的修饰化学与DNA模板化偶联策略相结合,能够直接从天然蛋白质或肽快速生成高纯度的OPO文库,辅以高通量数据采集和随后的CNN-DM分析流程,实现了对合成和天然生物样本的高置信度分类。该平台具有快速、可靠和广泛适用的特点,为未来的生物标志物快速检测和临床诊断提供了坚实基础,为多样化的蛋白质组学应用铺平了道路。

科学价值:1)证明了利用大规模平行传感和先进的大数据分析,即使是通常用于DNA测序的CsgG纳米孔,也能够准确分析和分类复杂的肽样本,包括单氨基酸变体、异构体、翻译后修饰以及高度相似肽的混合物。2)为纳米孔单分子蛋白质分析提供了一个从样品制备到数据分析的完整、可扩展的端到端解决方案,解决了该领域长期存在的通量低、缺乏集成工作流程等关键瓶颈。3)揭示了肽在纳米孔易位过程中可能形成“团块”构象,其信号与肽的摩尔体积线性相关,深化了对肽-纳米孔相互作用的机理理解。

应用价值:1)首次将纳米孔传感平台应用于抗肽抗体验证和表位筛选,并促进抗原-抗体亲和力的半定量评估,为抗体分析提供了一个快速、低成本、可扩展的端到端解决方案,可作为质谱或表面等离子体共振等传统方法的有价值的补充工具。2)为通过对照参考库区分天然蛋白质引入了一种简化方法,成功实现了对盲标蛋白质的鉴定。3)通过与靶向富集策略结合,该技术可用于研究特定的目标肽段区域,具有实际的生物学问题解决能力。

六、 研究亮点

  1. 创新性的集成工作流程:将高效的OPO肽库制备策略、基于CsgG纳米孔阵列的高通量平行传感平台、以及创新的CNN-DM人工智能分析流程三者无缝集成,形成了一个完整的、可操作的蛋白质分析管道。
  2. 高通量与大数据分析:利用256通道平行传感,在短时间内产生海量单分子事件数据,使得基于统计模式识别(DM)和深度学习(CNN)的复杂信号解析成为可能,克服了传统单通道纳米孔分析通量低、数据有限的瓶颈。
  3. 高精度的肽区分能力:系统不仅能够区分电荷和体积差异明显的肽,还能以较高准确率区分难以分辨的异构体(如亮氨酸/异亮氨酸)和位置异构体,并成功检测多种翻译后修饰。
  4. 开创性的应用拓展:首次将纳米孔肽传感技术系统性地应用于抗体表征领域,实现了快速、高通量的表位图谱分析和半定量亲和力评估,展示了该技术在解决实际生物医学问题(如抗体试剂质量验证)中的巨大潜力。
  5. 稳健的蛋白质盲法鉴定:通过肽指纹图谱策略,在盲法实验中成功鉴定了三种蛋白质,证明了该平台从复杂酶解混合物中明确鉴定蛋白质的能力,迈向了实际蛋白质组学应用。

七、 其他有价值的讨论

研究也客观讨论了当前方法的局限性并展望了未来方向。局限性包括:1)OPO构建可能因缺乏赖氨酸的C端肽或特定PTM而受到影响,限制了可实现的覆盖度;2)DTC反应的非定向性导致肽可能从N端或C端进入纳米孔,对于具有显著电荷或体积不对称性的肽,可能引入信号异质性;3)有效的读取长度受解旋酶与纳米孔收缩区之间距离的限制;4)肽在孔内可能形成不可预测的紧凑结构,其固有的灵活性会引入复杂的易位动力学和信号不确定性。未来方向包括:优化定向肽修饰策略以提高传感分辨率;将DNA条形码与蛋白质编码策略相结合以实现更大规模的蛋白质组学分析;以及基于实验室原型开发专用的自动化集成平台或使该方法适应现有商业测序平台。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com