一种基于万亿数据点预训练的生成式 Transformer 逆向合成规划模型

分享自：
一种基于万亿数据点预训练的生成式 Transformer 逆向合成规划模型

化学
医学
期刊:Nature CommunicationsDOI:10.1038/s41467-025-62308-6
【点击此处】阅读全文、收藏及针对性提问
报告：基于百亿数据点预训练的逆合成规划生成式Transformer模型RSGPT
这项原创性研究的主要作者包括 Deng Yafeng（邓雅峰，清华大学自动化系，杭州碳硅人工智能科技有限公司）、Zhao Xinda（赵新达，杭州碳硅人工智能科技有限公司）、Sun Hanyu（孙瀚宇，北京协和医学院&中国医学科学院药物研究所）等人。该研究已于2025年发表于顶级综合性学术期刊 *Nature Communications*（文章DOI：10.1038/s41467-025-62308-6）。
一、 研究背景与目标
本研究属于计算化学、人工智能辅助有机合成规划领域。逆合成分析是设计有机分子合成路线的核心任务，其目标是为一个目标分子（产物）推断出合适的前体分子（反应物）。近年来，深度学习方法极大地加速和优化了这一过程。目前的方法主要分为三类：基于反应模板的方法、半模板方法以及无模板方法。基于模板的方法依赖于预定义的化学规则（模板），泛化性和可扩展性有限；无模板方法则直接生成反应物，灵活性更高，被视为更有前景的方向。
然而，逆合成分析模型的发展面临一个关键瓶颈：数据稀缺。即便是最大的公开数据集USPTO-full，也仅包含约200万个反应数据点。随着大语言模型技术的兴起，模型对海量训练数据的需求急剧增加。为解决这一矛盾，本研究团队开创性地提出：利用模板算法生成海量合成反应数据，以此为基础预训练一个强大的生成式Transformer模型。具体而言，研究目标是开发一个名为“逆合成生成式预训练Transformer”（Retro Synthesis Generative Pre-trained Transformer， RSGPT）的模型，旨在通过前所未有的数据规模（百亿级别）和受大语言模型启发的训练策略，实现无模板、高精度的单步逆合成预测，并探索其在多步合成路线规划中的应用潜力。
二、 详细研究流程
流程一：大规模合成反应数据的生成 为解决预训练数据短缺问题，本研究首先构建了一个包含超过100亿个反应数据点（10,929,182,923条）的合成数据集。其核心是利用开源的RdChiral逆向合成模板提取算法。具体步骤如下： 1. 数据源：从PubChem、ChEMBL和Enamine数据库中收集了超过7800万个原始分子。 2. 分子片段化：使用RDKit中的BRICS算法将这些分子切割，获得了约202万个独特的分子片段（submolecules）。 3. 模板库构建：从USPTO-full数据集中，使用RdChiral提取了化学反应模板，这些模板描述了反应中心的变化规则。 4. 反应生成：将分子片段库中的每一个片段，与模板库中的反应中心进行匹配。当一个片段与某个模板的反应中心成功匹配时，就依据该模板的规则，生成完整的反应产物，从而形成一条“反应物-产物”对数据。这个过程确保了生成的反应在化学规则上是合理的。 流程二：RSGPT模型的训练策略——三阶段法 受到大型语言模型成功经验的启发，RSGPT的训练分为三个关键阶段：预训练、基于人工智能反馈的强化学习和微调。 * 阶段A：预训练 * 架构：模型基于LLaMA 2的Transformer解码器架构构建，参数量约32亿。 * 数据：使用第一阶段生成的10亿条合成反应数据进行预训练。 * 任务设计：为了迫使模型深入理解产物、反应物和模板之间的内在联系，研究者设计了四个自监督学习任务： 1. 任务一：给定产物，预测反应物，再预测模板。 2. 任务二：给定反应物，预测产物，再预测模板。 3. 任务三：给定模板和反应物，预测产物。 4. 任务四：给定模板和产物，预测反应物。 * 目标：通过这四项任务，模型在无需人工标注的情况下，从海量数据中自主学习化学反应的通用知识和模式。 * 阶段B：基于AI反馈的强化学习（RLAIF） * 动机：借鉴人类反馈强化学习（RLHF）在大语言模型对齐中的应用，但为解决人工标注成本高的问题，采用AI自动反馈。 * 过程：模型接收一个产物作为输入，然后顺序生成预测的反应物和模板。接着，使用RdChiral算法，根据模型生成的“反应物-模板”对，反向推导出产物。 * 反馈机制：将RdChiral反推得到的产物与原始输入产物进行比对。如果完全一致，则给予奖励（+1）；否则，给予惩罚（0）。通过强化学习算法（如PPO），模型被训练去生成那些能够通过化学规则正确回溯到原产物的“反应物-模板”组合，从而更精确地掌握三者间的逻辑关系，为最终的无模板预测打下基础。 * 阶段C：微调 * 为了使模型适应特定的、真实的化学反应分布，使用标准的逆合成数据集（如USPTO-50k， USPTO-MIT， USPTO-full）对预训练和RLAIF后的模型进行微调。 * 在微调和最终推理阶段，模型不再接收或使用任何模板信息，完全成为一个基于产物SMILES字符串输入、直接生成反应物SMILES字符串的无模板模型。 流程三：模型评估与实验分析 1. 基准测试：在三个标准数据集（USPTO-50k， USPTO-MIT， USPTO-full）上，使用Top-k准确率（即真实反应物出现在前k个预测候选中的比例）作为主要指标，将RSGPT与现有的基于模板、半模板和无模板的先进模型进行全面对比。 2. 消融研究：为了解各训练组件的贡献，系统地去除了预训练、RLAIF等环节，评估其对模型性能的影响。 3. 案例分析：随机选取USPTO-50k测试集中的分子，可视化RSGPT的Top-3预测结果，进行定性分析。 4. 多步合成规划演示：将RSGPT的单步预测能力串联起来，演示其对三种已上市药物（奥希替尼Osimertinib、非布索坦Febuxostat、伏诺拉生Vonoprazan）的多步逆合成路线规划。 5. 合成数据质量评估： * 化学空间分析：使用树状图（TMap）可视化合成数据与真实数据（USPTO-50k）中产物和反应物的化学空间分布，比较其多样性和覆盖范围。 * 合理性评估：邀请三位化学专家对随机抽样的100条合成数据和100条USPTO-50k真实数据进行盲审，判断反应的合理性。 * 数据泄漏检查：将合成数据中的反应物与基准测试集中的反应物进行比对，检查是否存在重叠，以避免评估偏差。
三、 主要研究结果
结果一：合成数据的质量与特性 分析表明，本研究生成的百亿级合成数据具有以下特点： 1. 广阔的化学空间：TMap可视化显示，合成数据中的产物分布比USPTO-50k数据集更广，覆盖了更多未知的化学空间区域，包含了分子量更大、结构更复杂（如双环、笼状结构）的分子。这为模型预训练提供了超越现有真实数据范围的多样性。 2. 合理的质量：专家盲审结果表明，合成数据中合理反应的比例为74%，虽低于USPTO-50k数据集的98%，但对于预训练目的而言是可接受的。研究也指出，根据严格定义（一组反应物通常只对应一个主要产物），合成数据的“精确合理”比例可能更低，但实际化学反应中条件变化可能导致不同产物，因此74%的合理性是一个更现实的评估。 3. 无数据泄漏：检查确认，合成数据中未发现与USPTO-50k测试集完全相同的反应，仅发现少量合成子（synthon）匹配，有效避免了测试污染。
结果二：RSGPT在基准测试中达到最先进（SOTA）性能 在最具代表性的USPTO-50k数据集上（反应类型未知）： * RSGPT取得了63.4% 的Top-1准确率和93.0% 的Top-10准确率，显著超过了所有现有的无模板方法，也优于当前最好的基于模板和半模板的方法。 * 与之前的SOTA无模板模型R-SMILES和EditRetro相比，Top-1准确率分别高出7.1%和2.6%。 * 当使用20倍数据增强（对训练集和测试集的SMILES进行多表示增强）时，RSGPT的Top-1准确率进一步提升至惊人的77.0%。 * 在反应类型已知的条件下，RSGPT的Top-1准确率提升至72.8%。 在USPTO-MIT和USPTO-full数据集上，RSGPT同样在所有Top-k指标上均取得了最佳性能，证明了其良好的泛化能力。特别是在包含噪声的USPTO-full数据集上，其59.2%的Top-1准确率依然大幅领先其他基线模型。
结果三：消融研究揭示关键成功因素 消融实验清晰地量化了各组件的重要性： 1. 预训练是基石：当模型仅用USPTO-50k数据集微调（无预训练和RLAIF）时，Top-1准确率暴跌至26.4%。即使加入原子映射信息（可能带来信息泄漏），也只能提升至37.6%。这表明，基于百亿合成数据的预训练是RSGPT高性能的根本，使模型学会了广阔的化学反应空间特征。 2. RLAIF提升精确性：在包含预训练的基础上，移除RLAIF会使Top-1准确率从63.4%下降至59.9%，并且Top-1与Top-10准确率的差距拉大。这说明RLAIF有效地帮助模型学习了更精确的“产物-反应物”映射关系，提高了排名靠前结果的合理性。 3. 数据增强进一步提升性能：在预训练和RLAIF的基础上，对训练集和测试集同时进行SMILES增强，能显著提升模型性能，Top-1准确率可达77.0%，显示了该方法进一步挖掘模型潜力的能力。
结果四：案例与多步规划演示显示实用潜力 1. 单步预测案例分析：对随机选取的产物（如Suzuki偶联、Williamson醚合成、亲核取代、还原、脱保护等反应），RSGPT的Top-3预测不仅包含真实反应物，还给出了其他合理的合成替代方案，展示了模型丰富的化学知识。 2. 多步逆合成规划：RSGPT成功地为奥希替尼、非布索坦和伏诺拉生等复杂药物分子规划出了与文献报道相似或合理的多步逆合成路线。例如，对于奥希替尼，模型从最终产物开始，逐步回溯，准确预测了包括酰化、硝基还原、亲核取代和Suzuki偶联在内的关键步骤，证明了其在实际合成路线设计中的应用潜力。
四、 研究结论与价值
本研究成功开发了RSGPT，一个基于百亿合成数据预训练、并采用三阶段训练策略的无模板逆合成规划生成式Transformer模型。其主要结论和价值在于：
科学价值：
突破数据瓶颈：首创了利用模板算法生成超大规模合成反应数据用于模型预训练的新范式，为解决AI化学领域数据稀缺问题提供了可扩展的解决方案。
方法创新：将大语言模型（LLaMA 2架构）的成功训练策略（预训练、RLAIF、微调）系统性地引入逆合成分析，显著提升了无模板模型的性能上限。
性能突破：在多个标准基准上取得了最先进的性能，将逆合成预测的Top-1准确率提升至63.4%的新高度，验证了“大数据+大模型”策略在复杂科学计算任务中的有效性。
应用价值：
强大的单步与多步规划工具：RSGPT可作为化学家强大的辅助工具，快速、准确地提出单步反应的候选前体，并能串联进行多步逆合成路线探索，加速新分子（尤其是药物分子）的合成设计进程。
可扩展的框架：研究所依赖的RdChiral模板提取和合成数据生成方法具有通用性。可以针对特定领域（如天然产物全合成、生物合成途径解析），收集相关反应、提取模板、生成领域特异性合成数据，进而训练专用模型。这为众多缺乏大规模数据的化学子领域提供了可行的AI赋能路径。
五、 研究亮点
数据规模的革命性突破：生成并利用超过100亿个反应数据点进行预训练，规模比现有最大真实数据库高出四个数量级，是模型取得卓越性能的核心驱动力。
训练策略的巧妙迁移：首次将LLM的“预训练+RLAIF+微调”全流程训练范式完整应用于逆合成分析任务，特别是利用RLAIF让AI自动学习化学反应规则，实现了从“模板依赖”到“无模板”的智能跨越。
性能的显著领先：在多个权威基准测试中全面领先，确立了新的技术标杆，证明了所提出方法的前沿性和有效性。
框架的通用性与启发性：其“模板生成数据 -> 预训练大模型 -> 适配特定领域”的工作流程，为其他数据匮乏的科学计算和分子建模任务提供了宝贵的借鉴思路。
六、 其他有价值的内容与局限
研究也坦诚地指出了当前工作的局限性，为未来研究方向提供了指引： 1. 合成数据质量与方法：当前生成方法（RdChiral）主要适用于1-3个反应物的反应，且数据质量仍有提升空间。开发更先进、覆盖更广反应类型的合成数据生成方法是未来的关键。 2. 模型的可解释性：RSGPT作为黑箱模型，其预测过程缺乏化学直观解释。未来需要开发可解释性技术来阐明模型的决策依据。 3. 反应条件缺失：当前模型未考虑溶剂、温度、催化剂等反应条件，而这些在实际合成中至关重要。整合反应条件预测是迈向更实用系统的必要步骤。 尽管存在这些局限，RSGPT无疑代表了逆合成分析乃至AI辅助化学合成领域的一个重要进展，为后续研究奠定了坚实的基础并指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问