分享自:

天然产物靶向分离与表征的先进技术

期刊:Trends in Analytical ChemistryDOI:10.1016/j.trac.2024.117711

针对天然产物靶向分离与表征的先进技术综述报告

本文献《Advanced technologies targeting isolation and characterization of natural products》发表于《Trends in Analytical Chemistry》期刊第175卷(2024年),由来自沈阳药科大学中药学院的董书慧、段志康、白明、黄晓晓和宋少江(通讯作者)组成的团队撰写。该文是一篇系统性的综述文章,旨在全面梳理和介绍近年来在天然产物(Natural Products, NPs)研究领域,特别是在靶向分离与结构表征方面涌现的先进技术与策略。文章的核心论点是:面对传统分离方法效率低下、重复发现率高以及现代数据爆炸的挑战,整合并应用基于核磁共振(NMR)、质谱(MS)、基因组学以及生物活性数据谱分析的先进技术,是推动天然产物研究范式转变、高效发现具有新颖骨架或特定生物活性化合物的关键。

文章的主要观点及论述如下:

一、 NMR技术在指导天然产物靶向分离中的效能与应用 核磁共振是天然产物结构解析不可或缺的工具。近年来,NMR技术已从单纯的结构确证手段,发展为能够从复杂混合物中直接识别、筛选目标化合物的强大指南。该部分综述了从一维到二维NMR的一系列新兴数据分析工具和策略。

  • 1D NMR-based tools(基于一维NMR的工具): 这些工具侧重于利用1H或13C NMR数据。例如,Hierarchical Clustering Analysis (HCA) 通过对齐和聚类13C NMR信号,实现混合物中化合物的模式识别和直接鉴定。MIXONAT 软件则能通过比对实验13C化学位移与预测或实验数据库,快速对混合物中的化合物进行结构类型排名,甚至能区分立体异构体。XGBoost 是首个利用机器学习算法(基于13C NMR数据)预测天然产物家族分类的方法,在八类常见天然产物的预测中表现出最佳性能。Pseudo-Siamese Convolutional Neural Network (PSCNN) 方法则首次利用1H NMR谱,通过深度学习网络解决混合物组分识别中的化学位移变化和信号重叠问题。
  • 2D NMR-based tools(基于二维NMR的工具): 二维NMR通过增加维度,有效解决了信号重叠问题,提供了更丰富的结构信息。SMART (Small Molecule Accurate Recognition Technology) 及其升级版SMART 2.0是一个自动注释系统,它利用非均匀采样HSQC谱结合深度卷积神经网络,将未知谱图映射到已知化合物的聚类空间,实现快速识别和排名。DEEPSAT 是另一个基于神经网络的系统,可直接从HSQC谱中提取与分子结构相关的化学特征,用于结构注释和骨架预测。2D-NMR Barcoding 借鉴DNA条形码概念,利用2D NMR谱图中信号的独特空间模式和相关性作为“条形码”,通过与虚拟参考谱图比对来识别复杂样品中的化学成分。Atomic Sort 方法通过计算实验HSQC峰与数据库(如HMDB)中常见峰的欧几里得距离,来评估化合物中原子的新颖性,从而快速识别可能含有独特结构特征的提取物。DOSY combined with DEREP-NP 利用扩散排序NMR光谱,通过对比实验测得的扩散系数与基于数据库预测的值,来识别已知化合物。MADBYTE (Metabolomics and Dereplication by Two-Dimensional Experiments) 是一个数据分析平台,它利用TOCSY和HSQC谱为复杂混合物创建化学网络,无需参考数据库,并能将生物活性数据映射到结构网络上,构建构效关系。HMBC Networks 首次将网络理论应用于二维异核NMR数据分析,通过构建HMBC相关网络并利用社区检测算法,从天然混合物中恢复单个化合物的HMBC簇,进而推测分子结构。NPID 是一种基于纯位移HSQC和H2BC谱的自动识别方法,利用化学位移、相邻关系和峰强度三个标准,在定制NMR数据库中识别候选物。COLMAR Query 是一种自动指纹识别策略,通过将NMR化学位移列表或二维谱的一维截面与NMR谱库进行比对,来预测天然产物结构。

二、 MS技术在指导天然产物靶向分离中的效能与应用 质谱凭借其高分辨率、高灵敏度和高通量能力,在天然产物分析中扮演着核心角色,特别是在非靶向代谢组学和分子网络构建方面。

  • Data processing tools(数据处理工具): 原始质谱数据复杂且庞大,需要预处理。文章列举了多个开源或商业软件,如MZmine(提供从原始数据到特征列表的完整处理流程)、ANTDAS-DDA(专为数据依赖性采集模式设计,自动构建MS1和MS/MS谱图)、METEX(在LC-MS非靶向数据注释中表现出更高准确性),以及MS-DIAL, XCMS, CAMERA, Metaboscape等,它们支持特征检测、峰对齐、归一化和统计分析,为后续可视化分析奠定基础。
  • Tools to visualize MS data for targeted isolation(用于靶向分离的MS数据可视化工具):
    • Molecular Networking (MN) and advanced MN annotation tools(分子网络及其高级注释工具): 分子网络通过比较MS/MS谱图的相似性,将结构相关的化合物聚类可视化,是天然产物研究的革命性工具。文章介绍了多种进阶MN策略:Building Blocks-Based Molecular Network (BBMN) 结合了“结构单元”识别与MN构建,能更有效地发现具有显著不同骨架的新化合物。LindenaneExtractor 专门针对林德烷型倍半萜设计,自动提取其特征MS/MS离子,用于靶向发现。Single-Node-Based MN 旨在解决新颖二聚体在传统MN中孤立分散的问题,通过筛选和优化单节点,将其与已知类似物连接。Ion Identity Molecular Networking (iIMN) 通过整合MS1特征形状相关性分析,将同一分子产生的不同离子物种(如加合物)连接并合并,提高了网络连通性和注释能力。METGEM 软件结合了经典GNPS式MN和t-SNE降维算法,能更好地展示数据集中所有化合物之间的关系,即使它们在传统MN中未直接相连。
    • Advanced MN annotation tools(高级MN注释工具): 为了提升MN中化合物簇的注释水平,多种工具被开发出来。Network Annotation Propagation (NAP) 首次直接利用MN的拓扑结构和结构相似性来重新排名候选结构,即使没有谱库匹配也能降低错误率。MS2LDA 利用主题模型(LDA)识别MS/MS谱中共同出现的碎片和中性丢失特征(称为mass2motifs),从而在骨架水平上注释类似化合物。MolNetEnhancer 是一个集成工作流,它将MN、MS2LDA、NAP、Dereplicator等工具的结果与ClassyFire化学分类系统结合,提供更全面的化学多样性概览。SNAP-MS 主要利用MS1数据,通过分析MN分组与天然产物数据库(如Natural Products Atlas)中家族之间的特征相似性来直接注释化合物家族。CONCISE 工具融合了分子网络、谱库匹配和计算机预测(如CANOPUS),为整个子网络建立共识分类。
    • Mass Spectrometry Imaging (MSI)(质谱成像): MSI能够在无需标记的情况下,直接获取样品表面代谢物的空间分布信息。文章举例说明,通过监测微生物共培养板中代谢物的空间动态变化,可以预测具有抗真菌活性的候选分子,进而指导靶向分离。
    • Other tools for analyzing MS data(其他MS数据分析工具): 文章还简要提及了SIRIUS(用于分子式推断和碎片树计算)、CSI:FingerID(利用MS/MS数据进行数据库搜索)、MESSAR(关联代谢物亚结构与MS/MS谱特征)等一系列强大工具,它们共同构成了从质谱数据中挖掘结构信息的工具箱。

三、 基因组挖掘技术在指导天然产物靶向分离中的效能与应用 基因组挖掘基于“基因编码次级代谢产物”这一原理,通过分析生物体的基因组序列,预测其产生天然产物的潜力,从而指导靶向分离。

  • NPs prediction from BGC analysis(基于生物合成基因簇分析的天然产物预测): 生物合成基因簇是编码次级代谢途径的基因簇。antiSMASH 是微生物基因组中BGC识别的综合性工具,能可靠注释多种生物合成类型的基因簇。PRISM 则专注于BGC检测和产物结构预测,利用已知酶机制的同源性来预测新产物的化学骨架。此外,还有NAPDoS2, ClusterFinder, DeepBGC, RIPPminer 等多种工具用于BGC的识别和挖掘。对于植物,plantiSMASH 平台专门用于植物BGC的自动化识别、注释和表达分析。
  • Activate silencing genes to unlock potential NPs(激活沉默基因以释放潜在天然产物): 许多BGC在标准实验室条件下处于沉默状态。High-Throughput Elicitor Screening (HiTES) 平台通过高通量筛选小分子诱导剂,来激活这些沉默的基因簇,从而发现隐藏的天然产物资源。
  • Integrating genomics with other technologies(基因组学与其他技术的整合): 将基因组挖掘与NMR或MS结合,能产生更强大的发现能力。例如,结合基因组特征筛选与15N标记的NMR分析,可以靶向发现新的大环内酰胺类化合物。将BGC分析与MS/MS数据链接的工具,如MetaMinerHypoRippAtlasPep2Path,能够实现从基因序列到质谱检测产物的直接关联,极大地促进了核糖体肽和非核糖体肽等类化合物的发现。

四、 如何将生理活性数据谱分析与其他关键技术融合以精准挖掘活性天然产物 除了结构新颖性,生物活性是天然产物研究的另一核心驱动力。传统活性追踪分离耗时费力,现代策略旨在将活性数据早期整合到分析流程中。

  • Linking NMR signals to bioactive(关联NMR信号与生物活性): ELINA 方法基于统计异协方差分析,将1H NMR谱与生物活性数据关联,可视化与正/负活性相关的化学特征,从而在分离前锁定活性成分。Plasmodesma 程序能自动处理1D和2D NMR谱,并通过分析生物活性数据来提取和恢复活性化合物的谱图指纹。MADBYTE 平台也能将生物活性与2D NMR数据结合,可视化不同自旋系统与生物活性之间的相关性。
  • Linking MS data to bioactive(关联MS数据与生物活性): NP Analyst 是一个在线平台,它将分子网络或质谱数据与大量组分的活性结果结合,通过计算“活性得分”和“簇得分”,在MN中高亮显示具有强生物学特征的化合物。Multi-Informational Molecular Networking (MMN) 构建包含生物活性和分类学数据等多信息层的MN,以筛选优先分离的活性化合物。Bioactivity-Based Molecular Networking (BMN) 通过预测和映射“生物活性得分”到MN上,实现高通量注释与活性分析的结合。Polypharmacology-Labeled Molecular Networking (PLMN) 则将多药理学高通量抑制谱分析结果作为元数据链接到MN,揭示每个成分的多重活性信息。
  • Linking selectable MS or NMR data to bioactive(关联可选的MS或NMR数据与生物活性): DAF Discovery 是一个基于Jupyter Notebook的应用程序,它通过统计工具(如STOCSY和SHY)整合NMR数据、MS数据和生物测定结果,为研究者提供便捷的数据融合分析方案。
  • Linking HiTES to bioactive(关联HiTES与生物活性): 将HiTES与生物活性检测结合,可以直接筛选能够诱导产生特定活性代谢物的诱导剂,从而发现由沉默基因簇编码的活性化合物。
  • Linking HSCCC to bioactive(关联高速逆流色谱与生物活性): 开发了梯度洗脱逆流色谱与实时活性检测联用技术,可在色谱分离的同时监测馏分的生物活性,实现活性馏分的在线识别和后续分离。

五、 总结与展望 文章最后对全文进行了总结,并展望了未来发展趋势。作者指出,先进技术正在并将持续为从自然界获取巨大价值提供承诺。当前研究不再受数据匮乏限制,而是面临如何利用数据爆炸的挑战。因此,结合多种工具、方法和跨学科技术来过滤、预处理、简化数据并从中生成意义至关重要。

文章进一步指出了该领域面临的挑战与未来方向: 1. 数据处理与质量:需要在数据质量与数量间取得平衡,确保支持流程执行的数据可靠性。 2. 数据库建设:目前缺乏一个包含基因组、波谱学和相关生物测定等所有层次信息的全面数据库。现有数据库通常针对特定数据类型,且文件兼容性有限。数据共享对于减少重复发现和加速发现至关重要。 3. 多学科工具集成:没有一种方法适合所有样品,未来需要发展更多多学科工具集成平台。除了NMR、MS和基因组学,现代晶体学(如微晶电子衍射)也为直接解析复杂混合物中的结构提供了新可能。 4. 人工智能与机器学习:AI/ML在天然产物分离领域具有巨大潜力,但其严重依赖历史数据质量,且决策过程存在“黑箱”问题,难以解释。优化其可靠性和可解释性是未来发展方向。 5. 生物活性评估的复杂性:由于天然产物混合物的复杂性,协同或拮抗效应可能影响活性结果,研究NPs间的相互作用及其对活性的影响具有重要意义。 6. 技术可用性与普及:许多强大工具未能广泛应用,部分原因是操作系统的友好性不足或源代码未开放。优化现有技术的稳定性和易用性将促进其发展。

本文的学术价值与意义: 这篇综述系统性地总结了截至2024年天然产物靶向分离与表征领域的最新技术进展,涵盖了从波谱技术到基因组学,再到生物活性整合的多个维度。它不仅为研究人员提供了一份全面的“技术指南”,帮助其根据具体研究目标和样品特点选择合适的技术组合,而且清晰指出了当前领域存在的挑战和未来的发展方向。文章强调的跨学科整合、数据驱动发现以及智能化工具应用,正是推动天然产物研究从传统“劳动密集型”模式向现代“智能高效”范式转变的核心动力,对于加速药物先导化合物的发现和天然产物的开发利用具有重要的指导意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com