分享自:

三维深度生成模型在从头药物设计中的进展与挑战

期刊:Journal of Chemical Information and ModelingDOI:10.1021/acs.jcim.2c00042

这篇文档属于类型b(综述类论文),以下是针对该文档的学术报告:


作者及机构
本文由Weixin Xie, Fanhao Wang, Yibo Li, Luhua LaiJianfeng Pei*(通讯作者)共同完成,研究团队来自北京大学前沿交叉学科研究院定量生物学中心(Center for Quantitative Biology, Academy for Advanced Interdisciplinary Studies, Peking University)。论文于2022年5月11日发表在Journal of Chemical Information and Modeling(J. Chem. Inf. Model. 2022, 62, 2269−2279),标题为《Advances and Challenges in De Novo Drug Design Using Three-Dimensional Deep Generative Models》。

论文主题
本文是一篇系统性综述,聚焦于基于三维(3D)深度生成模型的从头药物设计(de novo drug design)领域,总结了当前3D分子生成模型的技术进展、应用场景及未来挑战,特别关注其在结构基于药物设计(structure-based drug design, SBDD)中的潜力。


主要观点与论据

1. 3D生成模型在药物设计中的优势

传统药物设计依赖二维(2D)分子表示(如SMILES字符串或分子图),但3D生成模型能直接生成具有空间构象的分子,更贴合实际物理相互作用。论文提出三大优势:
- 受体结合导向性:3D模型可整合蛋白质结合位点的局部相互作用约束(如氢键、疏水作用),模拟人类专家的结构优化过程。
- 泛化能力:无需依赖已知配体数据,可从其他靶标迁移设计知识,提升分子新颖性。
- 自动化程度高:避免2D模型需额外对接(docking)和构象生成步骤的复杂性,实现端到端设计。
支持证据
- 案例显示,3D生成模型(如LigVoxel、LigANN)能预测与已知配体体积重叠度更高的结合位点网格(grid-level evaluation)。
- 对比实验表明,3D生成分子在虚拟筛选中富集效果优于随机分子库(如DUD-E数据库)。

2. 3D分子表征方法的分类与技术细节

论文将3D分子生成模型分为三类,基于不同表征方法:
- 立方网格(Cubic Grid-based)
- 方法:将分子划分为多通道体素网格(如疏水性、氢键供体/受体通道),通过卷积神经网络(CNN)生成。
- 局限:需后处理模块(如RNN解析SMILES或原子拟合算法)重建分子结构,信息丢失严重。
- 案例:Skalic等开发的Shape-VAE通过3D卷积自编码器生成配体网格,重建率仅1.74%。
- 欧氏距离矩阵(EDM-based)
- 方法:基于原子类型矩阵和距离矩阵生成分子,需多维缩放(MDS)算法转换坐标。
- 挑战:需约束Gram矩阵半正定性以确保生成合理构象。
- 案例:EDMNet通过Wasserstein GAN生成异构体,但有效性仅7.5%。
- 笛卡尔坐标(Cartesian Coordinate-based)
- 方法:直接逐原子生成3D坐标,需解决旋转/平移不变性问题(如使用SchNet或E(n)等变网络)。
- 优势:支持端到端生成,如G-SchNet通过内部坐标系实现高有效性(77%)。
技术对比
- 立方网格兼容计算机视觉技术但重建困难;EDM需复杂数学约束;笛卡尔坐标模型更灵活但训练难度高。

3. 3D生成模型的应用场景与性能评估

论文分为配体导向设计蛋白结构导向设计两类应用:
- 配体导向设计
- 案例1:Ragoza等的VAE生成分子经UFF优化后,81%构象变化RMSD Å。
- 案例2:Gebauer的G-SchNet生成分子中87%新颖且92%唯一,键长/键角分布与训练集一致。
- 蛋白结构导向设计
- 案例1:LigANN通过BicycleGAN生成配体网格,解码SMILES成功率86.5%~93.8%。
- 案例2:DeepLigBuilder结合蒙特卡洛树搜索(MCTS)优化SARS-CoV-2主蛋白酶抑制剂,78.1%分子具有高结合亲和力(smina评分<-9 kcal/mol)。
评估瓶颈
- 缺乏统一基准,不同研究使用QM9、ChEMBL等异构数据集,且构象精度差异大(量子化学计算vs. RDKit生成)。
- 实验验证缺失,尚无生成分子经湿实验验证。

4. 当前挑战与未来方向

论文提出三大核心挑战:
- 结构推断(Structural Inference)
- 现有方法依赖OpenBabel等工具补全键信息,成功率有限。
- 潜在解决方案:开发可逆3D表征(如3DMolNet的邻接矩阵编码)。
- 蛋白结合条件生成
- 监督学习需大量蛋白-配体复合物数据,强化学习(RL)依赖评分函数(如smina)。
- 案例:Simm等通过RL策略生成稳定分子,但扩展至靶标设计需改进奖励函数。
- 评估标准化
- 需建立兼顾2D(如MOSES)和3D特性(构象能量、多样性)的基准。
- 建议引入力场能量评估(如MMFF94)替代RMSD,以更严格衡量构象合理性。


论文的价值与意义

  1. 学术价值
    • 首次系统梳理3D深度生成模型的技术框架,明确分类标准与优劣对比,为后续研究提供方法论参考。
    • 指出“结构推断”和“评估标准”等关键瓶颈,推动领域共识形成。
  2. 应用价值
    • 强调3D模型在SBDD中的潜力,尤其对缺乏已知配体的新靶标(如抗SARS-CoV-2药物)设计具有突破性意义。
    • 提出结合强化学习与生成模型的自动化流程(如DeepLigBuilder),缩短药物发现周期。

亮点
- 技术全面性:涵盖三类主流3D表征方法及10余种模型(如VAE、GAN、RL)。
- 批判性视角:指出生成分子合成可行性低等未被充分讨论的问题,呼吁关注数据质量(如ChEMBL的类药性)。
- 前瞻性建议:倡导开发兼顾构象采样与靶标结合的“多任务生成模型”。


此综述为3D生成模型在药物设计中的发展提供了清晰的技术路线图,同时揭示了从算法创新到实验验证的全链条挑战,对计算化学与AI交叉领域研究者具有重要指导意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com