用于分析三萜类化合物结构多样性的通用参考框架分子表示系统

分享自：
用于分析三萜类化合物结构多样性的通用参考框架分子表示系统

化学
植物学
生命科学
生物物理及生物化学
分析化学
期刊:plant communicationsDOI:10.1016/j.xplc.2025.101320
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：基于共同参考框架的分子表征系统用于分析三萜类化合物结构多样性
一、 研究团队、发表期刊与时间
本研究由来自美国明尼苏达大学德卢斯分校（University of Minnesota Duluth）的Lucas Busta教授团队主导，合作者包括Nicole Babineau、Le Thanh Dien Nguyen、Davis Mathieu、Clint McCue、Nicholas Schlecht、Taylor Abrahamson以及密歇根州立大学（Michigan State University）的Björn Hamberger。该研究成果于2025年3月24日在线发表于植物科学领域的开放获取期刊《植物通讯》（Plant Communications），论文标题为“A molecular representation system with a common reference frame for analyzing triterpenoid structural diversity”。文章数字对象标识符（DOI）为 https://doi.org/10.1016/j.xplc.2025.101320。
二、 学术背景与研究目的
科学领域： 本研究横跨天然产物化学、计算化学、生物信息学及植物代谢生物学领域，核心在于开发一种创新的分子表征方法，并应用于植物三萜类化合物的结构多样性分析。
研究背景与动机： 天然产物（Natural products）是药物、材料和农业产品的重要来源。然而，许多天然产物的生物合成途径尚不明确，这限制了它们的规模化生产和应用。虽然核苷酸测序技术是阐明这些途径的关键，但天然产物的分子结构分析同样至关重要，因为它能为假设的生物合成途径提供线索。目前，在药物发现领域已发展出多种分子表征系统（Molecular representation systems），如SMILES（Simplified Molecular Input Line Entry System）、分子指纹（如ECFPs, Extended-Connectivity Fingerprints）和基于图（Graph-based）的表示法等，用于计算机友好的分子结构表示。然而，这些系统主要关注单个分子的原子连接性和拓扑结构，而非将分子置于一个共同的、标准化的三维空间参考框架中。这种“共同参考框架”的缺失，使得研究者难以在不同分子间进行精确的原子与键的对应比较，从而阻碍了将化学结构与潜在的生物合成步骤直接联系起来。
因此，本研究旨在填补这一空白。研究者以三萜类化合物（Triterpenoids）作为案例研究，目标是开发并测试一种基于共同参考框架的分子表征系统。该系统能够将不同的分子结构映射到一个统一的网格模板上，从而实现原子级和键级的精确对应与比较。最终，研究者希望利用该系统揭示三萜类化合物的结构多样性热点，探索其与生物合成路径的关联，并在系统发育背景下分析其分布模式，从而为大规模生物合成途径的阐明提供新的工具和见解。
三、 详细研究流程与方法
本研究是一个结合了数据库构建、计算方法开发、结构分析和系统发育分析的综合项目，其工作流程可概括为以下几个主要步骤：
1. 研究对象的收集与数据库构建： * 研究对象： 植物表皮蜡质（Cuticular waxes）中报道的三萜类化合物（C30化合物）。 * 样本规模： 通过对文献进行系统检索，研究者收集了来自34篇报道的数据，共涉及76个植物物种（涵盖22个被子植物科），总计581次化合物出现记录，对应112种独特的三萜类化合物。 * 数据处理： 为确保研究对象的代表性，研究者将这112种三萜的结构与TeroKit数据库（一个包含超过11万种萜类化合物结构的数据库）进行了比较。分析发现，这112种化合物虽然仅代表了TeroKit中1075种三萜骨架（Skeleton）中的22种，但这22种骨架覆盖了TeroKit中67%的三萜类化合物，并且包含了最常见的6种骨架中的5种，证明所选化合物集具有良好的代表性。
2. 共同参考框架分子表征系统的设计与实现： * 核心创新方法： 本研究开发了一种新颖的、基于网格模板（Grid-like template）的分子表征系统。这是本研究的核心创新点。 * 方法原理： 研究者观察到，其研究案例中的三萜类化合物大多具有四环或五环结构。基于此，他们首先将多个分子的三维结构进行部分对齐，找到一个共同的空间取向。然后，设计了一个通用的网格模板。该模板包含A、B、C环，一个四元或五元的D环，以及一个可选的E环。 * 映射过程： 每个三萜分子都被手动“映射”到这个网格模板上。模板上的每个网格位置对应分子骨架上的一个特定原子位点。研究者通过电子表格（Spreadsheet）记录每个位置上的原子/取代基类型（如C、O、H等），以及连接各位置之间的键的类型和立体化学取向（如单键、双键、平面内、平面外等）。所有112个分子的数据均以这种方式录入（见补充表1）。 * 系统优势与局限： 该系统的优势在于，所有分子都投影到同一个网格上，因此可以精确识别和比较不同分子间对应的原子和键。其局限性在于，当前模板主要适用于与模板结构相似度高的分子（如本研究中的三萜），对于结构差异过大的分子（如强心苷），需要构建更大或不同的网格系统。
3. 基于共同参考框架的结构多样性分析： * 分析一：结构变异热点识别。 利用录入系统的数据，研究者计算了每个网格位置（原子/键）在所有112个分子中的定性变异指数（Index of qualitative variation）和变异比率（Variation ratio）。这两个指标用于量化每个位点的变异程度（从0到1，0表示无变异，1表示最大变异）。结果以热图形式可视化在模板结构上，直观展示了三萜骨架中哪些区域是高度保守的，哪些是高度可变的（例如，C环和D环顶部的键、C-3和C-28位点的取代基等）。 * 分析二：层次聚类（Hierarchical clustering）与生物合成关联。 研究者计算了所有分子对之间的结构差异（基于网格中每个位置特征的差异比例），构建了距离矩阵。随后使用Ward方法进行层次聚类分析，生成了系统树图（Dendrogram）。为了验证聚类结果与生物合成的关联，研究者将已知的2,3-氧化角鲨烯（2,3-oxidosqualene）环化过程中产生的碳正离子中间体与树图中其产物所在的区域进行比对。 * 分析三：多对应分析（Multiple-correspondence analysis, MCA）揭示主要变异维度。 由于数据是分类变量，研究者采用了类似于主成分分析（PCA）但适用于分类数据的多对应分析。他们将每个分子作为一个样本，每个网格位置（原子/键状态）作为一个变量，构建矩阵进行MCA分析，以揭示数据集中的主要结构变异维度，并确定哪些分子区域对这些变异贡献最大。 * 分析四：系统发育背景下的共现分析。 研究者将112种三萜在植物物种中的分布信息映射到一个简化的开花植物系统发育树上。首先，分析了三萜多样性在物种间的分布模式。其次，对于每一对三萜化合物，计算了它们的结构相似性（基于共同参考框架的差异比例）以及它们在系统发育树上的共现频率。通过随机化模拟（100次）计算期望共现次数，并与实际观测值比较，识别出显著共现或互斥的化合物对。最后，将分析粒度细化到原子/键对，研究特定原子或键特征（如“C-3位的氧代基团”）在不同结构类别的分子中的共现模式，以推断可能的共同酶促反应步骤。
4. 数据分析与可视化： * 研究团队开发了自定义的R函数（如variationratio(), qualitativevariationindex(), drawmolecules()）进行计算和可视化。 * 使用了R语言中的FactoMineR包进行多对应分析，stats和cluster包进行层次聚类和距离计算，ggplot2进行图形绘制。 * 所有原始数据和分析代码已在GitHub项目仓库（github.com/thebustalab/common_reference_frame）中公开。
四、 主要研究结果
1. 共同参考框架系统成功揭示了原子/键级别的结构变异热点。 通过计算定性变异指数和变异比率，研究者成功绘制了三萜骨架的“变异热图”。结果显示，某些区域（如C环和D环连接处的键、D环和E环的模块化区域）表现出极高的立体化学和键型变异。同时，一些常见的氧化位点（如C-3和C-28）也显示出高度的取代基变异。这一结果是使用SMILES或分子指纹等传统表征方法无法直接获得的，因为它们不提供原子间精确对应的信息。
2. 层次聚类结果与已知的生物合成路径高度吻合。 基于共同参考框架计算的分子距离进行的层次聚类，将112种三萜分成了四个主要的结构群组： * 原甾烷类（Protosteranes，紫色）： 如羊毛甾醇、胆固醇、环阿屯醇等，源自原甾基碳正离子。 * 何帕烷/羽扇豆烷类（Hopane/Lupanes，绿色）： 如何帕酮、羽扇豆醇、桦木酸等，源自何帕基和羽扇豆基碳正离子及其重排产物。 * 乌苏烷/齐墩果烷类（Ursane/Oleananes，蓝色）： 如α-香树脂醇、β-香树脂醇、熊果酸、齐墩果酸等，源自乌苏基和齐墩果基碳正离子，是数据集中最丰富的类群。 * 蒲公英甾烷/木栓烷类（Taraxane/Friedelanes，红色）： 如木栓酮、Glutinol等，源自经过一系列碳正离子迁移的产物。 重要的是，聚类结果与这些化合物已知的生物合成前体（碳正离子中间体）的演化关系高度一致。这表明，基于共同参考框架的结构相似性分析能够有效反映底层的生物合成逻辑，为推测未知天然产物的生物合成步骤提供了强有力的假设生成工具。
3. 多对应分析识别出三萜结构多样性的两个主要变异维度。 多对应分析的前两个维度分别解释了数据集中12%和11%的变异。分析表明： * 第一维度主要将蒲公英甾烷/木栓烷类（红色组）与其他三组化合物分开，这对应于在环化过程中发生的大规模碳正离子迁移所导致的显著骨架立体化学变化。 * 第二维度则将其余三个主要群组（原甾烷类、乌苏烷/齐墩果烷类、何帕烷/羽扇豆烷类）区分开来。 将分析结果映射回网格模板后发现，对第一维度变异贡献最大的区域与蒲公英甾烷/木栓烷类群组内部的高变区域高度重合，进一步证实了环化步骤是结构多样性的关键驱动力之一。
4. 系统发育共现分析揭示了结构与生物合成的深层联系。 * 系统发育分布图显示，三萜的多样性在植物类群中分布不均，例如栎属（Quercus）和越橘属（Vaccinium）植物报道的三萜种类尤为丰富。 * 化合物对共现分析发现，许多显著共现的化合物对属于同一结构群组（如α-香树脂醇和β-香树脂醇），这可能源于基因复制后的功能分化或多功能酶的作用。但也存在结构差异大却显著共现的案例（如β-香树脂醇和木栓酮），暗示了可能的共同进化起源或生境因素。 * 最具洞察力的发现来自原子/键对的共现网络分析。 研究者识别出几个高频共现的原子/键特征簇（Clusters），其中一些特征簇跨越了不同的主要结构群组。例如： * 簇1： 定义为“网格位置10的氧原子、11-13和9-11位的平面内单键、以及10-11位的双键”，这本质上就是“C-3位的氧代（羰基）基团”。该特征出现在来自所有四个结构群组的16个不同分子中。这强烈暗示，在产生这些化合物的植物谱系中，存在细胞色素P450氧化酶（Cytochrome P450 oxidase）或短链脱氢酶/还原酶（Short-chain dehydrogenase/reductase, SDR） 活性，它们可能具有较宽的底物特异性，能够修饰不同骨架的前体。 * 簇4： 包含一组特定的键和取代基组合，出现在来自三个不同结构群组的四种化合物中（均报道自植物Hoya naumannii），这同样提示该物种可能含有对A环具有区域特异性、且底物宽容性较高的氧化酶。 这种跨结构群组的原子/键特征共现分析，能够揭示多步骤生物合成途径中共享的后期修饰酶促步骤，这是传统基于整体分子相似性的分析难以实现的。
五、 研究结论与价值
结论： 本研究成功开发并验证了一种基于共同参考框架的分子表征系统。将该系统应用于植物表皮蜡质三萜类化合物的分析表明，该系统能够： 1. 在原子和键的尺度上，直接量化并可视化分子集合中的结构变异与保守区域。 2. 实现基于结构相似性的层次聚类，且聚类结果与已知的生物合成路径高度一致，证明了该方法在连接化学结构与生物合成方面的潜力。 3. 通过与多变量统计方法（如多对应分析）结合，揭示大规模结构数据集中的主要变异维度，并将其与特定的生物化学过程（如氧化角鲨烯环化中的碳正离子迁移）联系起来。 4. 在系统发育背景下，通过分析原子/键特征的共现模式，推断出跨越不同结构类别的共享酶促反应，从而为阐明复杂的生物合成网络提供了新的线索。
科学价值与应用价值： * 方法论价值： 本研究提供了一种全新的、专注于“原子对应性”的分子表征和分析范式，弥补了现有药物发现导向的分子表征系统在天然产物生物合成研究中的不足。它不是一个旨在取代SMILES或指纹方法的高通量通用工具，而是一个能够提供更精细、更直接与生物合成逻辑关联的“细粒度”分析工具。 * 应用价值： 该系统可直接用于支持天然产物生物合成途径的阐明。通过分析已知天然产物的结构关系，研究者可以生成关于途径中酶促反应顺序和酶学机制的可靠假设，进而指导基因挖掘和功能验证实验。此外，该方法也有助于理解植物次生代谢产物的结构多样性的进化起源。 * 拓展潜力： 尽管本研究以三萜为例，但作者指出，该框架可扩展至其他具有共同前体的天然产物家族（如二萜、生物碱等），只需针对特定化合物家族设计相应的网格模板即可。
六、 研究亮点
创新性的方法： 开发了首个专门为天然产物生物合成研究设计的、基于共同参考框架的网格化分子表征系统，实现了跨分子的精确原子/键级对应比较。
深度的分析能力： 展示了该系统在多个层面的独特分析能力，包括变异热点定位、与生物合成直接关联的聚类、多维结构变异解析以及原子级特征的系统发育共现分析，这些均是传统分子表征方法难以实现的。
强有力的生物学验证： 研究结果不仅展示了新方法的有效性，更重要的是，其产生的结构聚类与已知的三萜生物合成化学（碳正离子重排路径）完美吻合，为方法的可靠性提供了坚实佐证。
发现新的生物学见解： 通过原子/键共现网络分析，发现了可能存在于不同三萜骨架生物合成途径中的共享氧化修饰步骤（如C-3位氧化），这为理解植物代谢网络的模块化和进化提供了新视角。
跨学科融合： 成功地将计算化学、生物信息学、植物化学和系统发育学方法相结合，为解决天然产物研究中的经典难题提供了综合性方案。
七、 其他有价值的内容
本研究强调了将化学结构与系统发育信息整合分析的重要性。这种整合不仅能揭示化合物的分布模式，还能帮助区分由共同进化历史（同源酶）驱动的结构相似性与由趋同进化或酶底物混杂性（Promiscuity）导致的结构相似性。此外，作者在讨论中也坦诚了当前方法的局限性（如需要手动录入、通用性有待提高），并指出了未来的发展方向，例如开发（半）自动化方法从现有化学数据库中构建共同参考框架，这为后续研究指明了道路。最后，所有数据和代码的开源共享，极大地促进了该方法的可重复性及后续的改进与应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问