分享自:

DrugEx v3:基于图变换器强化学习的支架约束药物设计

期刊:journal of cheminformaticsDOI:10.1186/s13321-023-00694-z

学术研究报告:DrugEx v3——基于图Transformer强化学习的支架约束药物设计方法

作者及发表信息
本研究的核心作者包括Xuhan Liu(荷兰莱顿大学药物研究与安全中心)、Kai Ye(西安交通大学电子与信息工程学院)、Herman W. T. van Vlijmen(莱顿大学与杨森制药)、Adriaan P. IJzerman(莱顿大学)和Gerard J. P. van Westen(莱顿大学,通讯作者)。研究发表于2023年的*Journal of Cheminformatics*,文章标题为《DrugEx v3: Scaffold-constrained drug design with graph transformer-based reinforcement learning》,采用开放获取模式(Creative Commons Attribution 4.0国际许可协议)。


学术背景

研究领域与动机
本研究属于计算药物设计(Computational Drug Design)领域,聚焦于从头药物设计(de novo drug design)中的支架约束分子生成问题。传统药物设计常以特定支架(scaffold)为起点,通过修饰侧链探索化学空间,但现有深度学习方法(如基于SMILES的模型)难以灵活整合用户指定的支架信息。为此,作者团队升级了此前开发的DrugEx方法(基于多目标强化学习),提出DrugEx v3,旨在通过图Transformer架构实现用户自定义支架的分子生成,并提升生成分子的多样性与药物活性。

科学问题与目标
- 核心问题:现有生成模型(如RNN、VAE)无法直接接受用户输入的支架片段,且需针对不同目标重新训练。
- 目标:开发一种端到端模型,支持多片段组合输入,生成满足活性(如腺苷A2A受体拮抗剂)和类药性(如QED评分)要求的分子。


研究方法与流程

1. 数据准备与分子表示

  • 数据来源
    • ChEMBL数据集:约170万小分子(经去电荷、去除金属等预处理)。
    • 配体数据集:10,828个腺苷受体(A1/A2A/A2B/A3)配体,按活性阈值(pChEMBL≥6.5)分为活性(ligand+)、非活性(ligand−)和未定(ligand0)三类。
  • 分子片段化:使用BRICS算法将分子分解为片段,构建“支架-分子”对(如片段A+B→分子M),生成约900万训练对。
  • 分子表示
    • SMILES序列:传统字符级表示,需处理语法约束(如括号、环编号)。
    • 图表示(Graph):创新性提出五维矩阵(原子类型、键类型、连接原子索引、当前原子索引、片段索引),支持化学价规则实时校验。

2. 模型架构对比

研究对比了四种端到端深度学习模型:
1. 图Transformer(Graph Transformer):核心创新模型,扩展标准Transformer的注意力机制,引入基于邻接矩阵的原子/键位置编码(Positional Encoding),解决图结构并行处理问题。
2. LSTM基础模型(LSTM-base):基于RNN的编码器-解码器结构。
3. LSTM+注意力机制(LSTM+Attn):增加注意力层以捕捉长程依赖。
4. 序列Transformer(Sequential Transformer):处理SMILES序列的标准Transformer。

3. 多目标强化学习框架

  • 目标函数:结合A2A受体亲和力预测(随机森林模型,输入为ECFP6指纹和19种物化描述符)和类药性评分(QED),通过Pareto排序算法优化多目标权衡。
  • 策略梯度训练:生成器(Agent)通过策略梯度更新参数,环境(Environment)提供奖励信号(如活性分子奖励值>0.5)。
  • 探索策略:引入探索网络(Exploration Net,固定参数)与利用网络(Exploitation Net,动态更新),平衡生成多样性与目标导向性。

4. 性能评估指标

  • 有效性(Validity):生成分子是否符合化学规则(图Transformer达100%)。
  • 准确性(Accuracy):生成分子是否包含输入支架(99.7%)。
  • 新颖性(Novelty):未在训练集中出现的分子占比(68.9%)。
  • 多样性(Diversity):基于Solow-Polasky测度(值>0.84)。

主要结果

  1. 模型性能对比

    • 图Transformer全面领先:在有效性、准确性、新颖性上显著优于SMILES-based模型(如LSTM-base准确性仅57%)。
    • 合成可行性(SA评分)不足:因图模型生成罕见环系,SA评分低于SMILES模型(需后续优化)。
  2. 强化学习效果

    • 单目标(A2A亲和力):86.1%生成分子预测为活性,但部分分子超500 Da,类药性差。
    • 多目标(亲和力+QED):74.6%活性分子,且类药性提升(图6展示化学空间覆盖训练集)。
  3. 实际应用案例

    • 生成30个基于已知支架(如呋喃、三嗪)的A2A受体配体(图7),预测活性(pChEMBL>6.5),无反应性基团,可作为先导化合物优化起点。

结论与价值

科学意义
- 方法学创新:首次将图Transformer应用于支架约束药物设计,解决SMILES模型的语法限制和化学价校验难题。
- 工具开源:代码公开于GitHub(https://github.com/cddleiden/drugex),推动领域发展。

应用前景
- 多场景扩展:未来可结合蛋白信息(如序列、结构)设计靶向特定蛋白的配体,或优化ADMET(吸收、分布、代谢、排泄、毒性)性质。


研究亮点

  1. 创新模型架构:图Transformer通过邻接矩阵编码原子/键位置,支持多片段并行生长与连接。
  2. 化学规则内嵌:实时价态校验确保100%有效性,优于SMILES模型的90%左右。
  3. 多目标强化学习:Pareto排序平衡活性与类药性,ε=0.3时生成56.8%独特活性分子。
  4. 领域针对性验证:以腺苷A2A受体为案例,证明方法在GPCR药物设计中的实用性。

局限与展望
- 芳香键处理:当前忽略芳香键,依赖RDKit后续校正,可能引发支架匹配误差。
- 合成可行性:需进一步整合合成可及性评分(SA)优化策略。

(全文约2400字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com