第一, 研究作者、机构、发表期刊与时间
本研究由来自中国多所高校与科研机构的团队合作完成。主要作者包括Shan Cong(哈尔滨工程大学智能系统科学与工程学院/青岛创新发展中心)、Meng Zhang(哈尔滨工程大学青岛创新发展中心)、Yu Song、Sihao Chang、Jing Tian、Hongji Zeng(湖南农业大学植物保护学院,隶属于团队3)以及Hongchao Ji(通讯作者,中国农业科学院农业基因组研究所,农业农村部基因组分析重点实验室深圳分中心)。Meng Zhang和Shan Cong为共同第一作者,Hongchao Ji为责任作者。
该研究以《Graph-Sequence Enhanced Transformer for Template-Free Prediction of Natural Product Biosynthesis》为题,于2025年8月8日发表在期刊 Patterns (卷6,文章号101259)上。
第二, 学术背景与研究目的
本研究属于计算生物合成与人工智能药物发现交叉领域。天然产物(Natural Products, NPs)是小分子药物的重要来源,超过60%的FDA批准药物直接或间接来源于天然产物及其衍生物。然而,超过90%的天然产物其生物合成途径仍不清晰,这严重阻碍了对其的理性工程改造和规模化生产。逆合成分析(Retrosynthesis)是规划分子合成路线的核心技术,在药物研发的“设计-制造-测试-分析”循环中至关重要。
传统的逆合成预测方法主要针对有机合成化学设计,在面对涉及复杂酶促反应、立体化学和独特分子拓扑的生物合成反应时表现不佳。现有的无模板(Template-Free)机器学习模型(如基于Transformer的模型)在有机合成领域显示出巨大潜力,但其在生物合成途径预测方面的应用仍处于起步阶段。虽然有BioNavi-NP和READRetro等研究尝试将无模板方法用于生物合成预测,但性能仍有提升空间,且部分方法严重依赖先验知识库。
因此,本研究旨在填补这一空白。研究团队的核心目标是开发一种能够有效应对生物合成数据复杂性的新型深度学习框架。具体而言,他们希望创建一个模型,能够同时利用分子的图结构信息(拓扑、立体化学)和序列依赖性信息(SMILES字符串),以更准确地预测单步及多步生物合成逆反应,从而为天然产物生物合成途径的解析和设计提供强大的计算工具。
第三, 详细研究流程与方法
本研究流程严谨,可分为以下几个关键环节:
1. 基准数据集构建与准备: 研究使用了两个公开基准数据集进行评估。首先是广泛用于化学反应预测的USPTO-50K数据集,包含5万个专利化学反应,用于验证模型在通用化学合成任务上的性能。其次,也是更关键的是生物合成领域的Biochem Plus数据集,该数据集由Zheng等人构建,整合了MetaCyc、KEGG、MetaNetX等数据库中的生物反应,并从USPTO中筛选了类天然产物反应加入。为确保数据一致性,研究使用RXNMapper工具对所有反应进行了原子映射处理,并遵循了与对比方法相同的训练/验证/测试集划分。对于多步逆合成评估,除了使用Biochem Plus的内部测试集,还使用了其“清洁”版本(Biochem Plus (clean)),该版本移除了训练集中出现的反应,用于测试模型在未知反应场景下的泛化能力。
2. 数据增强策略: 为提高模型鲁棒性,研究采用了SMILES(Simplified Molecular Input Line Entry System, 简化分子线性输入规范)数据增强技术。其核心是“根原子对齐”方法:对于每个分子(产物),随机选择一个原子作为“根”来生成其SMILES字符串;然后,根据产物中重新排序的原子序列,确定每个反应物中对应的“根”原子,从而生成高度对齐的输入(产物)和输出(反应物)序列对。这种方法生成了多种等效的分子表示,丰富了训练数据,并帮助模型缩小搜索空间,增强注意力机制。研究对USPTO-50K和Biochem Plus数据集均进行了20倍的增强。
3. 核心模型GSETransformer的架构与实现: 本研究提出的核心创新是图序列增强的Transformer(Graph-Sequence Enhanced Transformer, GSETransformer)。它是一个基于标准编码器-解码器框架的Transformer模型,但其独特之处在于将图神经网络(Graph Neural Network, GNN)的能力整合到了编码器中。 * 图构建与序列嵌入:首先,将输入的产物SMILES序列通过RDKit化学信息学工具包解析为分子图。利用SMILES序列中的原子字符与分子图中的原子节点一一对应的关系,将分子图的邻接矩阵信息映射到序列上,从而为序列构建一个图表示。序列中的每个原子字符被转换为嵌入向量,并加入位置编码,同时这些嵌入向量也作为构造图中节点的初始特征。 * GSETransformer编码器:编码器包含三个子层。第一层是GNN层,研究采用了图注意力网络(Graph Attention Network, GAT),通过自注意力机制计算图中节点间的相互影响权重,聚合邻居信息来更新节点特征。这使模型能够有效捕获分子的拓扑结构和立体化学等局部相互作用。第二层是Transformer经典的多头自注意力层,专注于捕捉SMILES序列的全局上下文依赖关系。第三层是前馈神经网络层。这种图结构与序列信息的融合,使得模型能够对嵌入拓扑结构的复杂序列数据进行更有效的特征提取。 * GSETransformer解码器与训练:解码器结构与原始Transformer一致,包含自注意力层、编码器-解码器注意力层和前馈网络层,用于自回归地生成预测的反应物SMILES序列。模型针对USPTO-50K和Biochem Plus数据集分别采用了6层Transformer结构,嵌入维度分别为256和512,使用8个注意力头。训练采用自回归语言生成的标准损失函数。推理时,对USPTO-50K使用波束搜索(beam size=10)生成Top-50预测,对Biochem Plus生成Top-10预测。
4. 多步逆合成规划工作流: 对于多步合成路径的规划,研究将训练好的单步GSETransformer模型作为反应预测器,集成到Retro*搜索算法中。Retro*是一种类似A*的启发式搜索算法,在“与或”搜索树上进行最佳优先搜索。搜索从目标分子开始,利用单步模型预测的Top-K个可能前体来扩展搜索树,同时使用神经成本函数来评估和引导搜索方向。研究还集成了一个基于KEGG数据库的规则反应检索器模块,在搜索过程中识别已知的生物合成途径中间体,以优先探索已知路径。整个多步规划系统旨在从目标分子出发,逆向搜索直至找到可购买的构建模块。
5. 性能评估与对比实验设计: 研究设计了全面的评估体系。 * 单步逆合成评估:采用Top-N准确率作为主要指标,即真实反应物出现在模型给出的前N个预测中的比例。研究将GSETransformer与当前最先进的多种无模板方法进行了对比,包括AugTransformer、TiedTransformer、GTA、MEGAN、Retroformer、Graph2SMILES、R-SMILES、Chemformer以及专门针对生物合成的BioNavi-NP和READRetro。 * 多步逆合成评估:使用了三个指标:成功率(模型找到完整合成路线的比例)、路径命中率(预测路径与真实已知路径完全一致的比例)和构建块命中率(正确识别起始原料的比例)。在Biochem Plus及其“清洁”版本上进行了测试。 * 消融实验:为了验证模型中各组件(图结构整合、数据增强)的有效性,研究对比了基础Transformer(BioNavi-NP)、仅使用数据增强的Transformer、不使用数据增强的GSETransformer以及完整的GSETransformer的性能。
6. 用户图形界面开发: 为提升工具实用性,研究团队基于Qt框架开发了一个跨平台的图形用户界面(Graphical User Interface, GUI)软件。该软件集成了逆合成预测核心算法,允许用户输入目标分子结构,并调整推理参数以生成单步及多步逆合成路径,结果以可视化图表形式呈现。此外,软件还整合了酶预测模块(基于CLAIRE工具预测反应步骤的酶分类号EC number)和ADMET(吸收、分布、代谢、排泄、毒性)性质预测模块(基于ADMET-AI算法),实现了从逆合成路径预测到药物性质初步评估的一体化分析流程。
第四, 主要研究结果
研究结果在各个评估维度上均显示出GSETransformer的优越性能。
1. 单步逆合成预测结果: 在核心的生物合成数据集Biochem Plus上,GSETransformer取得了最佳的综合性能。其Top-3、Top-5和Top-10准确率分别达到51.7%、60.7%和69.0%,均超越了所有对比方法。虽然其Top-1准确率(29.2%)略低于R-SMILES(30.0%),但在更高阶的预测中优势明显。这证明模型在提供多个合理候选方案方面非常可靠。在通用的USPTO-50K数据集上,GSETransformer同样表现出色,Top-1、Top-3、Top-5和Top-10准确率分别为56.4%、80.3%、87.6%和92.9%,全面超越了包括R-SMILES在内的所有基线模型,验证了其良好的泛化能力,不仅限于生物合成领域。 消融实验的结果为模型设计提供了有力支撑:与基础Transformer(BioNavi-NP)相比,仅引入数据增强就带来了显著性能提升;而即使不使用数据增强,整合了图结构的GSETransformer也优于基础Transformer,证明了图信息整合的有效性;最终,结合了图结构与数据增强的完整GSETransformer模型取得了最优性能,甚至超过了同样结合GNN与Transformer的GTA模型,凸显了其架构的先进性与鲁棒性。
2. 多步逆合成规划结果: 在Biochem Plus数据集上,GSETransformer取得了96.8%的成功率,与最佳模型GTA(97.6%)相当,但其路径命中率高达64.6%,显著优于所有对比模型。这表明GSETransformer不仅能找到可行的合成路线,而且更精确地复现了已知的真实生物合成途径。当与规则检索器结合(GSETransformer*)后,成功率提升至98.9%,路径命中率提升至77.2%,优势进一步扩大。 在更具挑战性的Biochem Plus (clean)数据集(模拟未知反应场景)上,GSETransformer的泛化能力得到充分体现,其成功率(87.5%)和路径命中率(34.4%)均领先于所有基线方法。结合检索器后,成功率进一步提升至91.8%。值得注意的是,在此数据集上,由于检索器依赖的已知第一步反应已被过滤掉,错误的检索结果有时会干扰模型自身的正确排名,导致结合检索器后的路径命中率略有下降(29.0%),但这恰恰反衬出GSETransformer模型自身强大的、不依赖于先验知识的预测能力。
3. 案例研究结果: 研究选取了Tabersonine、Menisdaurilide、Cannabichromenic acid和Glucotropaeolin四种天然产物进行深入案例分析。结果表明,对比方法READRetro的预测在很大程度上依赖于从知识库中检索已知路径。而GSETransformer则能够预测出连续的多步生物合成途径,即使在将相关已知反应从训练数据库中移除的情况下,依然可以凭借其数据驱动的学习能力预测出正确的反应步骤。这证明了GSETransformer具备探索全新或未知生物合成路线的潜力,而不仅仅是对已有知识的检索和重组。
第五, 研究结论与价值
本研究成功开发并验证了GSETransformer,这是一个创新性的深度学习框架,通过将图神经网络无缝整合到Transformer架构中,有效应对了生物合成逆反应预测的独特挑战。该模型通过同时利用分子的图结构信息和序列信息,在生物合成和通用化学合成的基准测试中均达到了最先进的性能。
其科学价值在于,它显著推进了计算生物合成领域的发展,提供了一种更精准、更通用的生物合成途径预测工具,有助于解析天然产物复杂的生物合成机制。其应用价值则体现在多个层面:首先,它为天然产物药物研发人员提供了强大的逆合成分析工具,可加速从天然产物到候选药物的设计过程;其次,集成的GUI软件降低了使用门槛,将复杂的算法转化为科研人员可便捷操作的工作流;最后,软件中整合的酶预测和ADMET性质预测功能,实现了从合成路径设计到初步成药性评估的闭环,具有很高的实践意义。该研究为探索未知天然产物生物合成路线、设计新型生物活性化合物以及实现可持续生物制造铺平了道路。
第六, 研究亮点
第七, 其他有价值的内容
本研究的资源开放程度高,体现了良好的可重复性和社区贡献精神。作者明确声明,本研究所用的数据集、Python源代码以及训练好的神经网络模型均已通过GitHub(https://github.com/momozhangcn/gsetretro)和Zenodo平台公开,这为其他研究者复现结果、进一步开发或应用于相关研究提供了极大便利。此外,研究在讨论部分展望了未来工作方向,包括扩展到更大更多样的数据集、集成更先进的多步规划算法(如双向搜索的DESP算法)以及探索与实验验证流程的整合,为后续研究指明了潜在路径。