仿生策略探索萜类化合物化学空间：Terogen协议

分享自：
仿生策略探索萜类化合物化学空间：Terogen协议

化学
信息科学
期刊:Briefings in BioinformaticsDOI:10.1093/bib/bbac197
【点击此处】阅读全文、收藏及针对性提问
基于生物启发策略的萜类化合物化学空间探索：Terogen协议
一、 主要作者、机构及发表信息
本研究由中山大学药学院的Tao Zeng（曾涛，博士研究生）、Fan Zhang（张帆，博士后）和Ruibo Wu（吴锐斌，教授，通讯作者）团队，与范德堡大学化学系的Bernard Andes Hess, Jr.教授合作完成。研究论文以“Bio-inspired chemical space exploration of terpenoids”为题，于2022年发表在学术期刊《Briefings in Bioinformatics》（第23卷第5期）。论文的收稿日期为2022年4月1日，修订于4月26日，最终于4月28日被接受。
二、 学术背景与研究目标
本研究属于计算化学、生物信息学与天然产物药物发现交叉领域。萜类化合物是自然界中最大的天然产物家族，结构复杂多样，是新药发现的重要源泉。然而，其巨大的化学空间（据估计可能包含约10^60个小分子）远超目前已发现的约10^8个化合物，其中已知的天然产物仅占极小一部分。为了高效探索和扩展萜类化合物的化学空间，传统的计算方法主要分为两类：基于片段/规则库的枚举方法和基于深度学习的生成模型。但这些方法往往忽略了生成分子的可合成性（accessibility）和化学可解释性（chemical interpretation），即难以保证生成的虚拟分子结构在热力学和动力学上是可行的，并且缺乏明确的、符合生物合成逻辑的生成路径，这严重阻碍了后续的实验合成验证。
针对上述挑战，本研究团队提出一个核心科学问题：能否模仿自然界合成萜类产物的逻辑，来探索其化学空间？自然界通过有限的前体和酶促反应规则（如环化、重排、官能团化），高效地构建了海量结构复杂的萜类分子。受此“生物合成树”逻辑启发，本研究旨在开发一种生物启发式的计算策略，将萜类生物合成的两个关键阶段——碳正离子骨架构建（环化/重排） 和后期修饰（官能团化）——分别用物理模拟和深度学习模型进行模拟，从而系统地、可解释地生成大量具有合理合成路径的新型萜类化合物。该策略被命名为 “Terogen”。
三、 详细工作流程
Terogen协议是一个结合了物理模型（反应器）和数据驱动模型（修饰器）的混合策略，其工作流程清晰分为两个主要阶段，并非基于固定反应规则的枚举。
第一阶段：反应器（Reactor）——碳正离子反应空间探索
本阶段的目标是模拟萜类生物合成的初始阶段，即由前体衍生出的碳正离子发生一系列环化、氢迁移、烷基转移等重排反应，生成多样化的碳骨架。 1. 研究对象与方法：研究选取了典型的萜类碳正离子前体作为起始结构（例如验证阶段使用了四种倍半萜前体）。核心方法是基于元动力学模拟（Metadynamics simulations）与半经验密度泛函理论方法GFN2-xTB。团队采用了RMSD路径推进（RMSD path-pushing, RMSD-PP）这一插件/方法来驱动反应并寻找过渡态。该方法通过施加两个偏置势能，将分子从反应物“推离”并向产物“拉动”，从而自动探索反应路径。 2. 具体流程与算法： * 模拟与采样：对每个起始碳正离子进行多轮元动力学模拟。在模拟轨迹中，通过内部脚本自动分析每个快照，检测正电荷位置和键级变化。当携带正电荷的碳原子索引发生变化时，即定义发生了一次反应，并记录相应的反应物和产物结构。 * 网络构建：将所有采样到的碳正离子作为节点，反应作为边，构建出一个庞大的碳正离子反应网络。对于每个探测到的反应，利用GFN2-xTB方法快速估算其反应能垒和反应热。 * 后处理：对所有生成的碳正离子中间体进行彻底的去质子化，得到中性的萜烯分子，或进一步泛化生成用于下一阶段的核心碳骨架。 * 验证：为了验证反应器的可靠性，研究将模拟结果与高精度DFT计算文献数据进行了对比。例如，针对Humulyl cation（葎草基阳离子）的反应网络，Terogen的反应器不仅复现了DFT计算预测的所有可行路径（反应能垒<20 kcal/mol），还高效地采样到了更多可能的碳正离子中间体（在两轮模拟中发现了1979个），而计算成本（约7天，两颗12核CPU）远低于全DFT方法。
第二阶段：修饰器（Decorator）——骨架修饰位点与官能团预测
本阶段的目标是模拟生物合成的后期修饰阶段，为反应器生成的核心碳骨架预测可能的修饰位点（如氧化、羟基化）以及添加相应的官能团（R基团），从而生成完整的萜类化合物。 1. 数据准备：研究首先需要一个用于训练的数据集。团队利用其自主开发的Terokit数据库和服务器，开发了一种专门的化合物切割算法。该算法将已知的天然萜类化合物分解为核心骨架（C5n骨架）和修饰基团（R-groups），而不是使用传统的RECAP规则（因其不适合处理萜类中常见的环状结构如内酯和环氧）。由此构建了“骨架-修饰”配对的数据集。 2. 模型架构与训练：修饰器由两个串联的深度学习模型组成： * 位点预测模型：采用Transformer架构（基于OpenNMT工具包）。输入是核心骨架的SMILES字符串，输出是标明了不饱和键和潜在修饰位点的“核心结构”。研究训练了集成模型和混合模型以提高对不同类型骨架的预测能力。 * R基团预测模型：采用基于循环神经网络的编码器-解码器架构。输入是位点预测模型输出的“核心结构”，输出是完全修饰后的萜类分子SMILES。该模型学习了天然萜类中官能团修饰的规律。 3. 工作流程：首先，将反应器生成的碳骨架输入到位点预测模型，得到一系列带有预定修饰位点的核心结构。然后，将这些核心结构输入到R基团预测模型，模型自动在预测位点上组装不同的官能团，最终生成大量结构多样的萜类化合物。
四、 主要研究结果
1. 反应器（Reactor）的验证结果： * 以四种倍半萜前体为起点，经过两轮模拟，反应器成功构建了一个包含5300个独特碳正离子和7428个独特反应的庞大网络。 * 可行性分析：93.5%的反应具有合理的能垒（<30 kcal/mol），83.5%的碳正离子生成反应是放热或微弱吸热（<10 kcal/mol）的。这表明反应器探索的绝大多数反应路径在热力学和动力学上是可行的。 * 准确性验证：与高精度DFT计算结果对比，反应器对环化、H迁移、烷基转移等不同类型反应的热力学趋势（放热/吸热）复现性很好。虽然半经验方法在定量上不如DFT精确，但其定性趋势一致，且采样效率极高。
2. 修饰器（Decorator）的验证结果： * 位点预测：在测试集上，平均76.4%的输出能保持输入骨架不变（有效性），其中40%是独特的。更重要的是，平均55.7%的骨架输出中包含了至少一个在训练集中未出现过的新修饰位点，证明了模型的探索能力。 * R基团预测：从300个测试核心结构生成了6287个修饰后的分子。其中96.0%是完整修饰的分子，66.3%对应已知的天然分子，平均独特性为31.0%。有12.5%的分子包含了至少一个训练集中未出现的新R基团，表明模型不仅学习了天然修饰模式，还具备一定的“创造力”。 * 示例展示：研究以两个高度相似的双萜（C20）骨架为例，展示了修饰器能够准确区分它们，并预测出合理的修饰位点，生成包括已知天然产物在内的一系列衍生物。
3. Terogen协议整体应用：二倍半萜（Sesterterpenoids）的化学空间拓展 * 研究对象：选择已知数量较少（约2500个）的二倍半萜（C25骨架）作为验证案例。 * 反应器阶段：从两个已知的5/15和5/11双环关键中间体（由环戊烷形成萜类合酶产生）出发，反应器探索了其碳正离子反应空间，生成了1743个碳正离子和2282个反应，覆盖了文献中已提出的许多重排机制。 * 修饰器阶段：将生成的碳骨架去质子化后得到3553个二倍半萜烯，泛化出1716个碳骨架用于修饰。由于已知二倍半萜数据量小，团队采用了混合模型进行位点预测，最终成功生成了 37,992个二倍半萜类化合物，其中仅有约50个存在于现有数据库中。这意味着Terogen将此类化合物的虚拟化学空间扩大了超过10倍。 * 化学空间分析：对生成分子的11种物理化学性质进行主成分分析（PCA）可视化，结果显示生成的二倍半萜的化学空间覆盖并显著超越了现有已知二倍半萜的空间。通过基于分子指纹相似性的树状图（t-SNE或类似tMap）进一步分析，发现生成的结构与现有结构虽有少量重叠，但整体差异巨大，产生了大量具有新颖骨架和修饰模式的分子。
五、 研究结论与价值
本研究成功开发并验证了Terogen这一生物启发式的萜类化合物化学空间探索协议。其核心结论与价值在于： 1. 方法论创新：Terogen不是简单的数据驱动生成模型，而是一个物理模拟与深度学习相结合的混合框架。它通过“反应器”模拟基于化学机理的骨架构建，通过“修饰器”学习基于数据的修饰规律，从而确保了生成分子的可合成性（具有合理的反应能垒与热力学）和化学可解释性（每一步生成都有明确的、符合生物合成逻辑的路径）。 2. 强大的探索与预测能力：该协议能够高效地生成海量结构新颖且合成路径合理的虚拟萜类化合物，极大地扩展了特定萜类（如二倍半萜）的化学空间。 3. 重要的科学与应用价值： * 科学价值：Terogen构建的反应网络为阐释已知萜类化合物的生物合成机制提供了新线索。它能追溯可能的生物合成途径，帮助理解自然界如何从有限前体产生如此多样的结构。 * 应用价值：该协议在多个方面具有巨大应用潜力：(a) 异源生物合成：为工程微生物生产高价值萜类提供可能的合成路线设计；(b) 仿生合成与化学合成：为实验室全合成或半合成提供灵感与先导化合物；© 药物发现：生成大量类天然产物分子库，用于虚拟筛选，发现新的药物先导化合物；(d) 定义化学空间边界：帮助界定已知萜类子空间，并探索其边界。
六、 研究亮点
独特的生物启发视角：首次明确提出并实现了将萜类生物合成的两个关键阶段（环化重排与后期修饰）分别用计算模型进行模拟，紧密遵循了自然界的合成逻辑。
物理模型与数据模型的深度融合：将基于量子化学计算的元动力学模拟（反应器）与基于深度学习的序列生成模型（修饰器）无缝衔接，兼具机理可靠性和生成多样性。
兼顾“探索性”与“可及性”：不仅能够生成大量新颖结构（探索性），还通过反应网络和能量计算为每个结构提供了热力学和动力学上的可行性评估（可及性），这是传统生成方法难以实现的。
高效的规模化应用：使用半经验DFT方法（GFN2-xTB）使得大规模反应空间探索成为可能，在可接受的计算成本下，实现了对复杂碳正离子反应网络的高通量采样。
专门的数据处理工具：开发了针对萜类化合物的专用切割算法，为深度学习模型提供了高质量的“骨架-修饰”配对训练数据。
七、 其他有价值内容
研究团队已公开了Terogen协议的相关资源，包括本研究生成的碳正离子反应、二倍半萜结构、用于训练修饰器的数据集以及源代码，可通过其Terpenome网络服务器（http://terokit.qmclab.com/）获取，这有利于该工具的推广和后续研究。同时，作者也讨论了当前协议的局限性，例如将生物合成严格分为两个独立阶段是一种理想化模型，对于一些氧化或与其它片段偶联（如生成混源萜）发生在骨架重排之前的情况，现有协议尚不能处理。他们指出，未来结合机器学习势函数（ML potential）进行更精确快速的模拟，以及开发更精细的化合物分类与切割算法，将是重要的改进方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问