本次研究的作者是Marwin H. S. Segler和Mark P. Waller*。其中,Marwin H. S. Segler是德国明斯特大学有机化学研究所与多尺度理论与计算中心的博士候选人,Mark P. Waller教授是明斯特大学的教授,同时在中国上海大学物理系、国际量子与分子结构中心任职。这项研究成果以论文形式发表在Chemistry - A European Journal期刊上,在线发表日期为2017年初(根据其提供的数字对象标识符DOI: 10.1002/chem.201605499推断),文章的标题为“Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction”。
该研究属于化学信息学与人工智能交叉领域,具体聚焦于有机化学合成规划中的两大核心计算问题:反应预测与逆合成分析。长期以来,解决这两个问题的标准方法是基于规则的专家系统。这类系统依赖于预先定义好的化学反应规则(例如以人名命名的经典反应),通过模式匹配来推断产物或逆推合成路线。然而,这类方法存在显著局限性:首先,规则本身往往忽略分子的整体环境,导致当分子中存在可能发生冲突或竞争的其他官能团时,规则会错误匹配,产生大量不合理的预测;其次,规则的编写、注释(例如添加关于容忍官能团和选择性的信息)和优先级排序高度依赖化学专家的手工劳动,耗时费力且难以扩展到覆盖所有化学反应;最后,这些系统缺乏对预测结果的可靠排序机制,而一个复杂目标分子可能有成百上千种形式上的合成路线,如何将最可行的路线优先呈现给用户至关重要。因此,研究者们旨在探索一种能够克服这些局限性的新方法。本研究的核心目标是开发并验证一种结合了神经网络学习能力与符号化规则可解释性的混合模型——“神经-符号”机器学习模型,使其能够从海量反应数据中自动学习规则的适用情境和优先级,从而高效、准确地进行反应预测与逆合成分析。
研究的详细工作流程可以分解为以下几个关键步骤:数据准备、规则获取、分子描述符生成、模型构建与训练,以及最终的评估与应用测试。
数据准备:研究者使用了Reaxys数据库中从1771年至2015年间发表的所有化学反应数据,筛选条件是反应物不超过三个且只生成一个单一产物的反应。这基本上涵盖了该时期内已发表的整个有机化学知识体系。最终,用于手编规则研究的数据集包含约300万个反应,用于自动提取规则研究的数据集则包含约490万个反应。数据被随机划分为训练集、开发集和验证集,比例为7:1:2。模型在训练集上学习,在开发集上调整超参数并选择最佳模型,最终性能在未见过的验证集上报告,确保了评估的公正性。
规则获取:研究采用了两种方式获取反应规则。第一种是人工编码规则,研究者手动编写了103个常见反应的规则。第二种是算法提取规则,采用了一种成熟的、基于反应中心的算法流程(类似于当时先进的规则基系统所用的方法),从反应数据中自动提取通用规则。这些规则包含了反应中心(反应中发生变化的原子和键)及其直接相邻的原子,但未考虑立体化学。为确保规则的稳健性,只保留在数据集中出现至少一定次数(如50次、100次、5000次)的规则,从而生成了规模不同的规则集,例如17370条、8720条和137条规则。规则匹配工作使用RDKit化学信息学工具包完成。
分子描述符生成:为了将分子结构转化为计算机可以处理的数值向量,研究采用了计数型扩展连通性指纹。对于反应预测任务,输入是反应物分子;对于逆合成分析,输入是目标产物分子。对于涉及多个反应物的反应预测,为了确保输入顺序不影响结果,研究者将所有反应物的ECFP4指纹向量求和,得到一个单一的、顺序不变的整体描述符向量,以此代表整个反应体系。
模型构建与训练:研究将问题定义为一个多类别分类任务,即模型需要根据输入分子的指纹向量,预测最可能应用哪个反应规则。研究者评估了不同的神经网络架构,包括具有一个或多个全连接隐藏层的标准神经网络,以及更深的高速公路网络。网络中的非线性激活函数使用了指数线性单元。网络的最后一层是Softmax层,输出在所有可能规则上的概率分布。整个机器学习框架基于Keras构建。研究者通过网格搜索等方式对超参数(如网络层数、每层神经元数量、学习率、丢弃率等)进行了优化,最终选定了表现最佳的模型。
工作流核心:模型的整体工作流如图2所示。在预测时,系统首先计算输入分子(反应物或产物)的指纹描述符,然后将其输入训练好的神经网络。神经网络输出一个概率分布,对候选规则进行排序和优先级划分。系统随后仅对排名最高(例如前10或前20)的少数规则进行实际的符号化模式匹配(即子图同构,这是计算上最耗时的步骤),从而大大减少了不必要的计算开销。这与传统规则基系统需要对所有规则(例如8720条)逐一进行匹配形成了鲜明对比。
研究的主要结果通过一系列严格的实验和评估指标得以呈现,证明了“神经-符号”模型的卓越性能。评估指标包括:准确率(预测概率最高的规则是否正确)、Top-N准确率(正确规则是否出现在前N个预测中)、平均倒数排名(衡量模型将正确结果排在靠前位置的能力)和加权精确度(衡量模型减少误报的能力)。
首先,在包含103条手编规则的实验中(表1),神经符号模型的表现远超基线。在反应预测任务上,纯粹的规则基专家系统准确率仅为0.07(即100个反应仅对7个),而最佳的神经符号模型(单层FC512 ELU网络和高速公路网络)准确率达到了0.92,Top-3准确率高达0.99。在逆合成分析任务上,规则基系统准确率为0.05,MRR为0.06;而神经符号模型的准确率提升至0.78,Top-5准确率达到0.98,MRR为0.87。这表明模型不仅预测更准,而且极其擅长将正确的合成路线排在结果前列。逻辑回归模型作为更简单的线性机器学习模型,表现虽优于随机猜测和规则基系统,但显著逊色于神经网络,证明了处理此类复杂非线性问题需要深度模型。
其次,在更具挑战性的、包含8720条自动提取规则的实验中(表2),规则基系统的弊端暴露无遗。在反应预测中,平均每个查询会匹配到44.5条规则,但准确率只有0.02。神经符号模型(高速公路网络)的准确率则达到0.78,是规则基系统的39倍,Top-10准确率更是达到了惊人的0.98,接近完美。在逆合成分析中,规则基系统准确率为0.02,Top-10准确率为0.19;而神经符号模型的准确率为0.64,Top-10准确率为0.95。这意味着如果允许模型给出10条建议路线,它有95%的概率包含正确的路线。这些结果清晰地表明,神经网络通过从数百万反应实例中学习,已经掌握了如何解决反应冲突并优先选择在给定分子环境下最适用的规则。例如,模型学会了在存在醛基的情况下,应优先选择Suzuki偶联而非Kumada偶联(因为后者涉及的格氏试剂会与醛基发生冲突),而这正是传统规则系统需要人工编码的“上下文”知识。
此外,研究还揭示了几个关键观察(图3):1)规则集规模与性能:当规则集规模相近时(137条算法提取规则 vs. 103条手编规则),算法提取的规则表现更好,这可能是由于其更能代表数据中的真实分布。同时,模型性能随着训练数据量的增加而稳步提升(图3b),即使在典型电子实验记录本规模的数据集上也能达到合理的性能。2)任务差异:逆合成分析的总体指标低于反应预测,这是符合预期的,因为逆合成分析仅基于产物分子信息,而反应预测则能利用反应物中更明确的反应官能团信息。3)速度优势:在计算效率上,“神经-符号”模型展现出巨大优势。在预测1000个类药物分子的逆合成路线时,模型在2013款MacBook Pro上仅需25秒,而规则基专家系统需要62分24秒,前者比后者快150倍。这是因为神经网络的“预筛选”机制大幅减少了耗时的子图同构匹配操作。
研究还提供了一个逆合成分析的实例(图3),针对一种药物分子,模型递归地应用其排名第一的预测,成功推导出了一条与文献报道相符的合成路线:目标酸通过氧化醛得到,而该醛又可通过甲酰化吲哚获得,吲哚中的联芳基结构则通过Suzuki偶联构建。这生动地展示了模型的实际应用能力。
本研究的结论是,研究者成功开发并验证了一种用于逆合成分析和反应预测的混合神经-符号机器学习方法。该方法的核心价值在于,它通过从海量反应数据中训练神经网络,自动化地解决了传统规则基专家系统中最棘手的两个问题:规则优先级排序和分子上下文冲突判别。这意味着,人们现在可以通过在一台计算机上训练一个算法(耗时仅数小时),来替代需要高技能化学家团队耗费数年进行手工规则编写和注释的繁琐工作。该方法在保持规则可解释性优点的同时,赋予了系统强大的学习与泛化能力。
该研究的亮点主要体现在以下几个方面:1)方法论的创新性:首次将深度神经网络与符号化反应规则系统地结合,提出了“神经-符号”这一新颖框架,为计算机辅助合成设计领域开辟了新路径。2)研究的规模与严谨性:这是首次在大规模、系统性的基准测试上评估机器学习与规则基系统在逆合成和反应预测任务上的性能,使用了涵盖数百万反应的完整化学文献数据集,并进行了严格的训练-开发-验证集划分,结果可靠且有说服力。3)卓越的性能表现:模型在包含超过八千条规则的复杂场景下,仍然取得了接近完美的Top-10预测准确率,且计算速度远超传统方法,证明了其高效性与实用性。4)解决了核心痛点:直接针对并成功缓解了规则基系统“无法处理上下文冲突”和“缺乏优先级排序”的根本缺陷。
当然,研究也坦承了当前模型的局限性,这些局限性主要源于其规则基的底层框架:一是无法预测规则库之外的新反应类型;二是目前未考虑立体化学。研究者指出,前者对于规划复杂天然产物全合成可能是个问题,但对于日常的类药物分子合成辅助已足够;后者则是未来研究中需要攻克的挑战。
这项研究标志着计算机辅助合成设计领域的一个重要进展。研究者证明,深度学习模型能够从化学大数据中有效地学习化学反应的隐性规律与上下文约束。这项工作为未来实现更智能的合成路线设计、机器人自动化合成、虚拟化学空间探索以及从头药物设计系统奠定了关键的技术基石。