分享自:

RetroBridge:利用马尔可夫桥进行逆合成建模

期刊:ICLR

基于马尔可夫桥的逆合成建模:RetroBridge方法介绍

一、 研究作者、机构与发表信息

本研究由来自École Polytechnique Fédérale de Lausanne (EPFL)的Ilia Igashov、Arne Schneuing和Bruno Correia,以及来自Microsoft Research的Marwin Segler和University of Oxford的Michael Bronstein共同完成。该研究以题为《RetroBridge: Modeling Retrosynthesis with Markov Bridges》的论文形式,发表于ICLR 2024(作为会议论文)。其中,Ilia Igashov和Arne Schneuing为共同第一作者。

二、 学术背景与研究目标

本研究属于计算化学与人工智能交叉领域,具体聚焦于逆合成分析这一化学领域的核心挑战。逆合成规划旨在为一个目标分子设计出从商业化可得原料出发的多步反应路径,是药物发现和有机合成中的关键环节。传统的实验方法耗时耗力,因此开发高效的计算工具具有重大意义。

研究背景与动机:尽管机器学习在分子设计方面已显示出巨大潜力,但现有方法往往忽视了所设计分子的“可合成性”。为了将计算机设计的分子在实验室中合成出来,化学家需要可行的合成路径,这正是逆合成分析工具要解决的问题。单步逆合成预测是这一任务的基础,它旨在为给定的目标产物分子预测其可能的前体反应物分子。大多数现有方法采用判别式模型,将问题视为一个分类或序列翻译任务。然而,本研究团队认为,同一产物分子往往可以通过不同的反应物和试剂组合合成,因此采用概率生成模型来捕捉这种一对多的映射关系更为自然。他们指出,扩散模型等主流生成模型旨在学习从简单先验分布到复杂数据分布的映射,但逆合成任务本质上是学习两个复杂分布(产物分布与反应物分布)之间的依赖关系,直接套用扩散模型框架存在局限性。

研究目标:1. 提出一个通用的马尔可夫桥模型框架,用于学习通过有限耦合数据点样本访问的两个难处理离散分布之间的概率依赖关系。2. 将该框架应用于逆合成预测问题,开发一个名为RetroBridge的、无反应模板的、基于图表示的逆合成建模方法。3. 在标准基准测试上验证RetroBridge的性能,并证明其在学习两个离散分布间映射任务上优于扩散模型等现有生成方法。

三、 详细研究流程与方法

本研究主要包含两个核心部分:一是提出通用的马尔可夫桥模型理论框架;二是将其具体应用于逆合成任务,即RetroBridge模型。

1. 马尔可夫桥模型的理论构建 本研究将两个离散空间X(产物)和Y(反应物)之间的依赖关系建模为一个马尔可夫桥。马尔可夫桥是一个被“钉”在起点和终点特定数据点上的马尔可夫过程。对于一对来自联合分布P_{X,Y}的样本(x, y),定义一个时间步序列t=0,1,…,T,对应的马尔可夫桥是一系列随机变量(Z_t),满足:Z_0 = x(起点为产物),并且过程具有马尔可夫性质,同时要求在最终时刻T,过程以概率1固定在y(即Z_T = y)。

在状态空间为有限分类(例如,原子或键的类型)的设定下,数据点可以表示为one-hot向量。研究团队定义了一个由参数α_t控制的转移矩阵序列Q_t。α_t是一个从α0=1递减到α{T-1}=0的调度参数。转移概率定义为:p(Z_{t+1} | Zt, y) = Cat(Z{t+1}; Q_t(y) Z_t),其中Cat表示分类分布。这种设计确保了过程最终能确定性地到达终点y。

核心创新在于学习过程:由于真实的反应物y在预测时未知,模型需要学习一个神经网络φ_θ来近似y。该网络以中间状态Z_t和时间步t为输入,输出对终点y的预测ŷ。然后,使用预测的ŷ来构建近似的转移核qθ(Z{t+1} | Z_t)。训练目标是最大化给定产物x条件下反应物y的对数似然log q_θ(y|x)的下界。通过推导,得到了一个基于KL散度的变分下界损失函数,用于训练神经网络φ_θ。

采样过程:给定一个产物分子x,采样从Z_0 = x开始。在每一个时间步t,神经网络φ_θ根据当前状态Zt预测ŷ,然后根据以ŷ构建的转移概率采样下一个状态Z{t+1}。重复此过程直到t=T,最终状态Z_T即为生成的反应物分子集合。

2. RetroBridge:用于逆合成规划的马尔可夫桥模型实现 研究团队将上述理论应用于分子图数据。每个分子(产物或反应物)被表示为一个图,其中节点是原子(用原子类型的one-hot编码表示),边是化学键(用键类型的one-hot编码表示)。在RetroBridge中,分子图的节点特征和边特征被视作独立的分类随机变量。

关键处理:由于反应物分子中可能存在产物分子中没有的原子(例如,试剂中的原子),研究在初始产物图中添加了10个“虚拟”节点。在马尔可夫桥的轨迹中,这些虚拟节点可以逐渐演变成反应物分子中的真实原子(如图2所示)。节点和边的转移概率分别由各自的转移矩阵定义,与理论框架一致。

置信度与打分:为了从生成的多个反应物样本中选出最相关的,RetroBridge利用其概率本质进行打分。对于一个输入产物x,模型生成M个样本。某个特定反应物集合y的置信度得分近似为这M个样本中等于y的比例。这是一种基于模型不确定性的简单而有效的排序方法。

3. 实验设置与基准对比 * 数据集:使用标准的USPTO-50k数据集,包含5万个来自美国专利文献的反应,并采用标准的数据划分(训练/验证/测试集)。为避免数据中的潜在偏差(如原子映射顺序),使用了经过规范SMILES处理的数据版本,并对图节点进行了随机置换。 * 基线模型:与多种先进方法进行了全面比较,包括: * 基于模板的方法:GLN, LocalRetro, GraphRetro。 * 无模板方法:MEGAN, G2G, 以及多种基于SMILES或图-SMILES混合的Transformer模型(如Augmented Transformer, RetroFormer, Graph2SMILES等)。 * 特别对比:与最先进的离散图扩散模型DiGress以及一个基于图Transformer的一步预测模型进行了对比,以凸显马尔可夫桥框架的优越性。 * 评估指标: * Top-k精确匹配准确率:对于每个输入产物,模型生成多个反应物集合,计算前k个预测中完全匹配真实反应物的比例。 * 往返准确率与覆盖率:使用前向反应预测模型Molecular Transformer来验证生成的Top-k反应物是否能通过化学反应重新生成原始产物。这反映了“一个产物可能对应多组有效反应物”的现实。 * 神经网络架构:采用图Transformer网络作为近似终点分布的神经网络φ_θ。分子被表示为全连接图,节点和边特征为one-hot编码。除了原子和键类型,模型还加入了额外的图特征,如环计数(局部和全局)、谱特征(基于拉普拉斯矩阵的特征值和特征向量)等,以增强模型对分子结构的理解。网络通过编码器-图Transformer层-解码器的结构处理这些特征。

四、 主要研究结果

1. 逆合成建模性能 在USPTO-50k测试集上的评估结果显示: * 精确匹配准确率:RetroBridge在无模板方法中取得了领先的综合性能。虽然其Top-1准确率(50.8%)与部分最先进模型相当,但在更关键的Top-3、Top-5和Top-10准确率上均超越了其他无模板方法。特别是Top-5准确率(80.6%)被认为在多步逆合成规划树中更具实际参考价值。与强大的基于模板的方法(如LocalRetro)相比,RetroBridge在更具挑战性的无模板设定下,其Top-5和Top-10准确率表现出了竞争力。 * 往返准确率与覆盖率:这一指标更能反映模型捕捉“产物-反应物”多对一关系的能力。RetroBridge在所有Top-k(k=1,3,5)的往返覆盖率和准确率上,均超越了所有参与比较的无模板基线模型,甚至超过了表现最佳的基于模板方法。例如,其Top-5往返覆盖率达到97.1%,准确率为67.8%。这强有力地支持了研究团队的核心理念:逆合成应该在一个能够建模不确定性的概率框架下进行。

2. 消融与对比实验 研究团队进行了深入的附加实验,以验证框架设计的有效性: * 与扩散模型DiGress对比:将DiGress通过条件生成方式适配到逆合成任务(需要将产物分子作为额外上下文输入)。结果显示,RetroBridge在所有Top-k指标上均优于条件化的DiGress。这证明了马尔可夫桥框架比扩散模型更自然地契合于学习两个复杂分布间映射的任务本质。扩散模型需要从噪声开始生成,而马尔可夫桥模型直接从给定的产物分子(来自难处理的先验分布)开始轨迹,结构更为直接。 * 损失函数与上下文的影响:比较了变分下界损失和简单的交叉熵损失。结果表明,变分下界损失能带来更好的性能。同时,研究发现在每个采样步都将输入产物作为上下文信息传递给神经网络φ_θ是有益的。但与扩散模型不同,RetroBridge即使不添加额外上下文,也能获得合理的准确率,因为产物结构的大部分信息在采样轨迹中得以保留。 * 一步式预测模型的失败:实验发现,采用相同架构但进行一步式预测(非迭代)的图Transformer模型,在可比训练时长下,完全无法恢复任何正确的反应物。这凸显了对于逆合成这种需要对整个图进行精确预测的复杂任务,迭代式生成方法的必要性。

3. 案例分析 论文展示了从测试集中随机选取的逆合成预测案例。RetroBridge能够为给定的产物分子生成多组可能的反应物,并给出置信度分数。在示例中,模型不仅成功预测出了真实反应物,其置信度分数也能在一定程度上反映预测的不确定性(例如,当正确答案不是最高置信度样本时,其分数与最高分样本相近)。这展示了模型在提供多样化合成路线并评估其可能性方面的潜力。

五、 研究结论与价值

本研究成功引入了马尔可夫桥模型这一新的生成式框架,专门用于解决需要学习两个难处理离散分布间依赖关系的任务。将该框架应用于逆合成预测问题,提出了RetroBridge方法。

结论:RetroBridge作为一个无模板的单步逆合成预测方法,在标准基准测试上达到了最先进的性能。更重要的是,实验证明,与直接适配扩散模型相比,选择马尔可夫桥这一更适合问题结构的概率建模框架,能显著提升任务表现。这为类似“分布到分布”的映射问题提供了新的建模思路。

科学价值与应用价值: * 理论价值:提出了一个通用的、基于马尔可夫桥的概率生成模型新范式,用于学习耦合数据点定义的两个分布间的随机过程。它弥合了标准生成模型(学习单一分布)与实际问题(学习分布间关系)之间的差距。 * 应用价值:RetroBridge为计算逆合成规划提供了强大、灵活且概率化的新工具。其无模板特性使其能够探索新的反应路径,而概率输出和置信度评分有助于在多层次合成规划中进行更智能的搜索和决策,有望加速药物发现和有机合成的研究进程。

六、 研究亮点

  1. 新颖的建模框架:首次提出将马尔可夫桥概念系统性地应用于构建生成模型,以学习两个离散分布间的依赖关系,为生成式AI开辟了一个新的方向。
  2. 问题驱动的模型设计:深刻认识到逆合成任务的核心是“产物分布”到“反应物分布”的映射,而非从简单噪声到复杂数据的生成,因此设计的模型直接从产物数据点开始演化,更符合问题本质。
  3. 卓越的性能表现:在极具挑战性的无模板逆合成预测任务上,取得了领先的Top-k准确率,并在反映合成路线多样性的“往返”指标上超越了包括模板方法在内的现有技术,证明了框架的有效性。
  4. 有效的概率化输出:模型不仅能生成多样化的反应物集合,还能通过基于似然的置信度对生成结果进行排序,为下游的多步规划算法提供了宝贵的 uncertainty 信息。
  5. 详实的实验验证:通过系统的实验,不仅证明了RetroBridge的总体性能优势,还通过消融实验清晰地验证了马尔可夫桥框架相对于扩散模型、一步预测模型以及不同损失函数的优越性,论证扎实。

七、 其他有价值内容

  • 未来工作与局限性:作者讨论了RetroBridge的局限性及未来改进方向,包括:1) 引入对特定反应物、试剂或反应类型的条件生成,以提供更符合化学家偏好的合成建议;2) 整合实验条件预测;3) 评估RetroBridge在多步逆合成规划算法中的表现。
  • 广泛的适用性:作者指出,马尔可夫桥模型的应用不限于逆合成。它可广泛应用于任何需要映射两个通过耦合数据点样本访问的离散分布的任务,例如图像到图像翻译、文本翻译、蛋白质结合剂设计等,展现了该框架的通用潜力。
  • 开源:研究团队公开了源代码,促进了该领域的可重复研究和进一步发展。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com