加速材料设计的生成式科学发现工具包

分享自：
加速材料设计的生成式科学发现工具包

材料化学
化学
期刊:npj computational materialsDOI:https://doi.org/10.1038/s41524-023-01028-1
【点击此处】阅读全文、收藏及针对性提问
这篇文档是由Matteo Manica, Jannis Born 等来自IBM Research欧洲（苏黎世）、英国、美国（约克敦高地、阿尔马登）、日本（东京）多个研究机构的团队共同完成的一项研究工作，发表于npj Computational Materials期刊，发表日期为2023年。
本研究属于计算材料学与人工智能交叉领域，聚焦于利用生成式人工智能加速科学发现，特别是新材料设计。近年来，虽然科学数据日益丰富，但在材料或药物发现等关键领域，研发生产力却在急剧下降。一个核心挑战在于假设生成：自然界产物库已近乎枯竭，而人工从头设计又难以在极其庞大的化学空间（例如，类药分子的化学空间估计包含超过10^33种结构）中高效地识别新颖且有潜力的候选物。为了应对这一挑战，基于机器学习（ML）的生成模型，如变分自编码器（VAE）、生成对抗网络（GAN）等，已成为一种实用的方法，能够利用不同的分子结构表示（如基于文本的SMILES、SELFIES或基于图的方法）来设计和发现具有所需性质的分子。然而，尽管存在如GuacaMol、MOSES等基准测试框架，以及TDC等药物发现领域的专业软件，但整个社区仍然缺乏一个统一、易用且能够集成多种先进生成模型的工具库。此外，生成模型日益增长的规模和训练所需的巨大计算资源，也造成了资源鸿沟，阻碍了开放、协作和公平的科学原则。因此，本研究旨在开发并介绍一个名为生成式科学发现工具包（Generative Toolkit for Scientific Discovery， GT4SD）的开源Python库，以降低使用生成模型的门槛，桥接这一差距，为加速科学发现提供一个统一的框架。
GT4SD是一个旨在加速材料设计的综合性开源软件库。 其工作流程和核心功能可以从以下几个主要方面进行详细阐述：
首先，GT4SD的总体架构设计遵循模块化原则，主要包含五个核心组件以及支持性子模块。 这五个核心组件是：1) 推理算法：遵循标准化应用程序接口（API）为模型提供推理服务，支持生成、条件生成、受控采样和简单预测等多种生成模型类型。所有算法都遵循一个标准协议，确保能以统一方式调用。2) 训练管道：共享一个通用接口，并针对不同算法族有特定实现，允许用户使用可配置的数据类来训练、微调和部署生成模型。每个训练管道都与一个实现实际训练过程的类以及三个控制模型超参数、训练参数和数据参数的配置数据类相关联。3) 领域特定工具：在不同算法之间共享的通用功能模块。4) 性质预测接口：用于评估生成样本的性质（目前涵盖小分子、蛋白质和晶体）。5) 框架实现：支持复杂工作流，例如用于训练生成和预测模型混合体的Granular框架，以及用于酶设计的Exceptional框架。在顶层，还有用于配置管理、处理基于云对象存储的缓存以及错误处理的子模块。这种设计确保了库的高度标准化和可扩展性。
其次，GT4SD提供了多种用户友好的访问方式，极大地简化了生成模型的使用和集成。 为了让用户能够轻松部署模型，GT4SD提供了简单的API接口，用户只需几行代码即可调用预训练模型。同时，库提供了高度灵活的命令行界面（CLI），包含gt4sd-inference（检查和运行推理管道）、gt4sd-trainer（列出和配置训练管道）、gt4sd-saving（将本地训练的模型版本保存到缓存以供推理使用）、gt4sd-upload（将训练好的模型版本上传到模型中心共享）等一系列端点，允许用户在终端中实现完整的发现工作流。此外，所有预训练模型都可以通过托管在Hugging Face Spaces上的Web应用程序直接从浏览器运行。GT4SD还与PyTorch、PyTorch Lightning、Hugging Face Transformers、Diffusers、GuacaMol、MOSES、TorchDrug、GFlowNets和Moler等流行库兼容和互操作。
第三，GT4SD集成了丰富的预训练生成模型和应用，涵盖了当前最先进的技术。 库中包含的算法主要分为两大类。第一类是图生成模型，例如Moler或来自TorchDrug库的模型（如图卷积策略网络和基于流的自回归模型GraphAF）。第二类是化学语言模型（CLM），这类模型将分子视为文本序列（如SMILES或SELFIES序列），可以通过MOSES或GuacaMol库访问，具体包括变分自编码器（VAE）、对抗自编码器（AAE）和目标强化生成对抗网络（ORGAN）等。此外，GT4SD还包含了更新的方法族，如生成流网络（GFlowNets）（一种利用强化学习思想来改进样本多样性的生成模型，特别适用于分子生成）和扩散模型（DMs）（通过在多个尺度上对数据进行去噪来学习复杂的高维分布）。GT4SD特别强调条件生成能力，集成了可以通过自然文本查询（如Text+Chem T5）、连续性质约束或分子亚结构（如支架）进行引导的条件分子生成模型，例如Moler、Reinvent，甚至支持性质约束和分子亚结构组合的条件模型（如回归变换器，Regression Transformer）。这些模型使得研究人员能够根据特定目标（如提高水溶性、匹配特定分子骨架）来定向生成分子。
为了展示GT4SD的实际应用价值，研究团队在文档中详细阐述了一个分子发现的案例研究。 该案例基于一项开创性研究（GentRL），其中利用深度强化学习模型发现了有效的DDR1激酶抑制剂（一种与纤维化、癌症等疾病相关的蛋白激酶靶点），并得到了一个名为GentRL-DDR1的先导化合物。本案例研究设定了一个任务：以GentRL-DDR1为起点，通过GT4SD设计出结构相似但具有更高估计水溶性（ESOL）的分子，以改善其药物递送特性。研究流程如下：首先，通过GT4SD的统一接口访问其丰富的预训练分子生成模型。在初始的无条件生成阶段，研究人员从Moler、GraphAF、VAE、AAE、ORGAN等各类模型的已学习化学空间中随机采样分子。分析发现，虽然这些方法能产生许多具有满意ESOL值的分子，但生成的分子与种子分子GentRL-DDR1的Tanimoto相似度较低，未能充分满足相似性约束。随后，研究人员采用了更精细的条件生成方法。他们利用GT4SD中的条件分子生成模型，特别是Moler和回归变换器（RT），以GentRL-DDR1的分子结构作为约束条件进行引导生成。结果显示，这些条件模型生成的分子在很大程度上遵守了相似性约束（许多分子的Tanimoto相似度 > 0.5），并且显著提高了ESOL值（提升超过1 mol/L）。在真实的药物发现场景中，通过这些方法生成的分子可以由药物化学家进行人工审查，并选择性地进行合成与筛选。这个案例清晰地演示了如何利用GT4SD中多种算法，快速、有针对性地设计具有所需性质的分子，从无条件生成到精细化条件生成的完整工作流程。
GT4SD的研究得出了明确的结论：GT4SD是迈向统一生成建模环境以加速材料发现的第一步。 该库通过提供一个标准化、易访问且功能丰富的平台，成功地降低了生成模型的使用门槛。它使科学家、开发人员和研究人员能够轻松地利用最先进的生成模型来加速有机材料设计等领域的科学发现。
本研究具有重要的科学价值和应用价值。在科学价值方面，GT4SD首次尝试构建一个跨模型、跨算法的统一生成模型工具库，促进了不同生成方法之间的比较、集成与评估。它集成了从传统的VAE、GAN到前沿的GFlowNets、扩散模型等多种技术，为科学研究提供了一个宝贵的“算法试验场”。在应用价值方面，GT4SD的标准化接口、命令行工具和Web应用极大地 democratize（民主化）了生成式AI在材料科学中的应用，使得即使没有深厚机器学习背景的研究人员也能利用这些强大工具来加速假设生成和候选物设计。它通过容器化和分布式计算支持，方便了模型的集成和部署。其模型中心功能鼓励开放科学和社区协作，允许用户分享自己训练的模型，从而持续丰富生态系统。
本研究的亮点在于：第一，高度的集成性与统一性：GT4SD是目前已知最大的、用于访问最先进生成模型的框架，它将分散的、多样的生成模型整合到一个统一的API和CLI之下，极大简化了使用流程。第二，先进且全面的算法覆盖：不仅涵盖了经典的生成模型，还及时集成了如GFlowNets和扩散模型等新兴的、有潜力的方法，并特别强化了条件生成的能力。第三，以用户为中心的设计理念：提供了从Python API、CLI到Web APP的多层次访问方式，满足了从高级开发者到领域科学家的不同需求。第四，详实的案例验证：通过一个完整的分子优化案例，具体、生动地展示了GT4SD在解决实际科学问题（如先导化合物优化）中的工作流程和有效性，增强了说服力。第五，对开放科学的贡献：通过开源代码、提供预训练模型、建立模型共享中心，GT4SD旨在打破资源壁垒，促进公平、协作的科学研究环境。
最后，作者展望了未来的发展方向，计划在两个方面进行扩展：一是扩展模型评估和样本性质预测的指标，探索偏差度量以更好地分析生成样本的性能；二是发展一个基于现有CLI模型生命周期管理功能的模型共享生态系统，建立一个直观的应用程序中心（受Hugging Face模型中心启发），方便预训练生成模型的发布和用户基于自定义数据对模型进行微调。同时，他们也计划将应用领域扩展到无机材料、气候、可持续发展、地理信息学和人类移动性等更广泛的科学领域。研究团队预期，GT4SD将使材料科学中的生成建模民主化，并赋能科学界在广泛的应用中访问、评估、比较和完善大规模预训练模型。该库的完整文档、源代码、预训练模型以及重现案例研究所需的代码和数据均已公开在GitHub和Hugging Face等平台，可供社区自由使用和贡献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问