利用深度学习预测化学反应产率

分享自：
利用深度学习预测化学反应产率

期刊:Mach. Learn.: Sci. Technol.DOI:10.1088/2632-2153/abc81d
这篇文档发表于2021年3月31日，刊登在期刊《Machine Learning: Science and Technology》（第2卷，015016页）。研究由来自瑞士IBM欧洲研究院（IBM Research—Europe）的Philippe Schwaller、Alain C. Vaucher、Teodoro Laino以及伯尔尼大学（University of Bern）化学与生物化学系的Jean-Louis Reymond共同完成。这项研究属于人工智能（AI）与化学信息学交叉领域，聚焦于利用深度学习模型预测有机化学反应的产率。
学术背景与研究目标在有机合成化学中，反应产率（Yield）是衡量一个化学反应效率的核心指标，直接影响合成路线的经济性和可行性。尽管AI在化学反应预测和逆合成分析等领域已取得显著进展，并开发出多种辅助工具，但准确预测反应产率这一挑战却较少受到同等关注。精确的产率预测模型能够指导化学家筛选高产率反应、评估合成路线的整体效率，从而减少实验试错，节省时间和资源。然而，构建通用的、不局限于特定反应类型的产率预测模型极具挑战性。先前的研究大多针对某一类特定反应（如Buchwald-Hartwig胺化反应、Suzuki-Miyaura偶联反应），使用计算化学描述符、分子指纹（Molecular Fingerprints）或独热编码（One-hot Encoding）来表示反应。本研究团队基于他们之前将化学反应视为一种“语言”来处理的研究基础，创新性地提出使用自然语言处理（NLP）的架构，直接以反应的标准文本表示（即SMILES字符串）作为输入，来预测反应产率。本研究的目标是开发一个基于Transformer编码器的深度学习模型，验证其在多种数据集（包括高质量的高通量实验数据和广泛但嘈杂的专利数据）上预测反应产率的性能，并深入分析影响预测精度的数据因素。
详细研究流程本研究的工作流程主要包含几个核心环节：模型构建、在不同数据集上进行训练与评估、以及深入的数据分析。
首先，模型构建。研究团队没有从零开始构建新模型，而是基于他们之前开发的反应指纹（Reaction Fingerprint, RxnFP）模型进行扩展。RxnFP模型本身是一个基于双向编码器表示来自Transformer（BERT）架构的模型，它经过预训练，能够将反应SMILES序列转化为具有丰富化学语义的向量表示（即“指纹”）。在本研究中，作者在预训练的RxnFP编码器之上，增加了一个回归层（regression layer），从而构成了用于产率预测的模型，他们称之为Yield-BERT。这种做法的优势在于避免了设计复杂神经网络架构的大量调参工作，主要只需优化学习率和丢弃率（dropout rate）两个超参数。研究使用simpletransformers库（基于Hugging Face Transformers和PyTorch框架）来简化训练流程。在输入处理上，他们使用RDKit工具包对反应进行标准化，并采用与RxnFP工作相同的SMILES分词（Tokenization）方法，确保输入格式与预训练模型兼容。
其次，在高质量高通量实验（HTE）数据集上进行训练与验证。研究选取了两个公开的、标注精确的HTE数据集来评估模型性能。 1. Buchwald-Hartwig胺化反应数据集：该数据集包含Ahneman等人报告的3955个反应，涵盖了不同卤化物、配体、碱和添加剂的组合。研究采用了与另一篇文献（Sandfort等人）相同的训练集/测试集划分方案，包括随机划分和几种“留出特定添加剂”的更具挑战性的划分，以测试模型的泛化能力。他们将训练集的一小部分（1/7）作为验证集来调整超参数，然后将最佳参数固定用于所有实验。 2. Suzuki-Miyaura偶联反应数据集：该数据集来自Perera等人，包含5760个反应，涉及15对亲电试剂和亲核试剂，并改变了配体、碱和溶剂。研究同样进行了随机划分（70/30）的实验。此外，他们还比较了两种不同的RxnFP基础编码器：一种是仅经过掩码语言建模（MLM）任务预训练的模型，另一种是在此基础上又经过反应类别预测任务微调（Fine-tuned, FT）的模型。 在每个实验中，模型都以反应SMILES字符串作为唯一输入，输出预测的产率数值。性能评估的主要指标是决定系数（R²）。
第三，在专利数据（USPTO数据集）上进行探索性分析与训练。USPTO数据集规模庞大但噪声多、不一致性强。研究首先对数据进行了清洗，只保留报告了产率和产物质量的反应。他们发现一个关键现象：根据产物制备规模（克级与亚克级），产率分布存在显著差异（通过统计直方图展示）。因此，他们将数据按规模分为“克级”和“亚克级”两个子集。对于每个子集，他们进行了随机划分和时间划分（以2012年为界）的实验。由于数据噪声大，他们还尝试了一种“平滑”处理：用某个反应自身的产率加上其三个最近邻反应产率的平均值来修正该反应的产率值，以期减少异常值的影响。
第四，辅助分析实验。为了展示模型在指导实验设计中的潜在价值，研究模拟了一个场景：在仅使用一小部分数据（如5%， 10%， 20%）训练模型后，让模型从剩余的大量未测试反应中预测出产率最高的前10、50、100个反应。他们计算了这些被“选中”的反应的平均真实产率，并与“理想选择”（从剩余数据中真实产率最高的反应）和“随机选择”进行对比。
第五，数据可视化分析。为了深入理解USPTO数据集产率预测困难的原因，研究团队使用了他们之前开发的反应地图（Reaction Atlas）技术。他们利用tmap和Faerun可视化工具，将反应根据其RxnFP指纹投射到二维平面上，并分别用反应超类（Superclass）和产率值进行着色。这种全局和局部可视化分析旨在揭示反应空间的结构与产率分布之间的关系。
主要研究结果本研究在各个流程中获得了清晰且富有洞察力的结果。
在HTE数据集上，Yield-BERT模型表现优异。 - 对于Buchwald-Hartwig数据集：在随机划分（70/30）的测试集上，模型取得了平均R²为0.951的出色成绩（见表1）。这超越了之前使用多重分子指纹特征（MFF， R²=0.927）和基于密度泛函理论（DFT）计算化学描述符的方法（R²=0.92）。在更具挑战性的、留出特定添加剂的测试集（Test 1-4）上，Yield-BERT的平均R²为0.73，表现优于MFF（0.60）和独热编码（0.59）方法，与DFT描述符（0.69）的结果相当。值得注意的是，即使在训练数据大幅减少（如仅用5%的数据）的情况下，模型仍能学到有意义的规律，显示出数据高效性。 - 对于Suzuki-Miyaura数据集：在随机划分上，使用经过反应类别预测任务微调（FT）的基础编码器取得了最佳性能，平均R²为0.81（见表2）。这表明，针对化学领域任务进行额外微调的预训练模型，可能能提取更适用于下游回归任务的特征。 - 高通量实验筛选模拟结果：如图2所示，仅用10%的数据训练模型后，模型所“推荐”的前10个高产率反应，其平均真实产率已非常接近“理想选择”的数值。例如，对于Buchwald-Hartwig反应，模型推荐组的平均产率为90±6%，而理想组为98.7±0.9%，随机选择组仅为34±27%。这证明该模型有潜力在实验化学中作为智能筛选工具，用极少量的初始实验数据快速锁定最有希望的高产率反应条件。
在USPTO专利数据集上，结果揭示了数据质量对模型性能的根本性限制。 - 产率分布的尺度效应：如图3所示，克级规模反应的产率分布整体向高值区偏移，而亚克级规模反应的产率分布更分散且包含更多低产率反应。这表明专利中报告的产率受反应规模影响很大，可能源于不同规模下反应优化程度和报告标准的差异。 - 模型预测性能低下：在未经平滑的原始数据上，无论是随机划分还是时间划分，模型在两个子集上的R²得分都非常低（克级0.117， 亚克级0.195）（见表3）。作为对照，当训练集的产率标签被随机打乱后，模型在测试集上的R²为0，证明模型结构本身具备学习能力，问题出在数据上。 - 可视化揭示根本原因：反应地图（图4）提供了直观解释。从全局看，相同颜色的反应超类倾向于聚集，暗示同类反应可能有相似的产率范围。然而，当放大观察局部区域时，发现空间位置上非常接近的反应（即化学上相似的反应），其产率值却可能天差地别。这种高度的局部不一致性使得模型难以学习到稳健的映射关系，只能预测相似反应的平均产率，从而导致整体性能不佳。 - 数据平滑的改善效果：当对产率标签进行基于最近邻的平滑处理后，模型的预测性能得到了显著提升（克级R²升至0.277， 亚克级升至0.388）。这进一步证实，USPTO数据中存在的噪声和不一致性是阻碍模型准确预测的主要瓶颈。
研究结论与价值本研究成功开发并验证了一种基于Transformer架构的深度学习模型（Yield-BERT），用于直接从反应SMILES字符串预测化学反应产率。其在高质量、标准化的高通量实验数据集上达到了最先进的性能，证明了自然语言处理技术应用于化学反应属性预测的有效性和强大潜力。更重要的是，该模型展现出卓越的数据效率，仅需少量训练数据即可有效指导高产率反应的筛选，为实验化学家提供了一种强有力的、节省资源的智能辅助工具。
同时，本研究通过对大规模专利数据的深入分析，得出了一个关键且具有警示意义的结论：当前可公开获取的专利反应数据（以USPTO为代表）由于其内在的噪声、不一致性以及报告标准（如反应规模）的差异，严重限制了其用于训练通用产率预测模型的有效性。反应地图可视化清晰地展示了数据中存在的局部产率剧烈波动问题。因此，研究强调，要推动产率预测领域的进一步发展，构建一个高质量、标准化、标注一致的公共反应产率数据集，其紧迫性甚至超过了开发更复杂的模型架构。
研究亮点方法创新：首次将基于BERT的NLP架构（经过化学领域预训练）与回归任务结合，用于通用反应产率预测，开辟了新思路。
卓越性能：在标准HTE基准测试上超越了此前基于计算描述符和分子指纹的方法，确立了新的性能标杆。
实践价值凸显：通过“小数据指导筛选”实验，生动展示了模型在加速实验发现、优化合成路线方面的巨大应用潜力。
深刻的批判性分析：没有满足于在理想数据上的好结果，而是深入剖析了现实世界数据（专利数据）的固有缺陷。通过严谨的统计分析和创新的可视化手段，明确指出了当前公共数据集的根本性局限，为领域未来的数据建设方向发出了重要倡议。
技术可扩展性：所提出的“预训练编码器+任务特定层”的框架具有良好的通用性，可轻松扩展到其他化学反应回归任务，如预测反应活化能等。
其他有价值内容研究还简要讨论了未来可能的工作方向，例如通过可视化分析模型的注意力权重（Attention Weights），来理解模型究竟关注SMILES字符串中的哪些部分（对应哪些原子或官能团）来做出产率预测，从而增强模型的可解释性。此外，代码和数据已在GitHub上公开，保证了研究的可重复性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问