这篇文档属于类型b(科学综述论文)。以下是针对中文读者的学术报告:
作者与发表信息
本文由Amira Alakhdar、Barnabas Póczos和Newell Washburn*(通讯作者,卡内基梅隆大学化学系与生物医学工程系)合作完成,发表于*Journal of Chemical Information and Modeling*(*J. Chem. Inf. Model.*)2024年第64卷,页码7238-7256,标题为《Diffusion Models in De Novo Drug Design》。文章于2024年6月25日收稿,9月16日接受,9月25日正式发表,遵循CC-BY 4.0开放获取协议。
主题与背景
本文系统综述了扩散模型(Diffusion Models)在药物从头设计(De Novo Drug Design)中的应用,尤其聚焦于三维分子生成(3D Molecular Generation)的技术实现、性能比较及在计算化学中的潜在价值。扩散模型受非平衡统计物理学启发,通过前向-反向扩散过程学习分子几何结构与理化性质的复杂概率分布,已成为生成具有特定属性分子的强大工具。其核心优势在于能够满足药物发现中对分子三维构象的E(3)和SE(3)等变性(equivariance)要求,即模型输出需对分子的旋转、平移和手性保持一致性。
文章详细对比了三种主流扩散模型框架:
- 去噪扩散概率模型(DDPMs):通过马尔可夫链逐步添加高斯噪声,再通过神经网络学习反向去噪过程。
- 基于分数的生成模型(SGMs):利用噪声条件评分网络(NCSN)估计数据分布的梯度(即分数函数)。
- 随机微分方程(Score SDEs):将扩散过程推广至连续时间,通过求解SDE实现生成。
支持证据:
- 以EDM模型(E(3) Equivariant Diffusion Model)为例,其使用E(n)等变图神经网络(EGNN)作为去噪网络,首次将扩散模型应用于3D分子生成(见公式1-3)。
- 表格1列举了常用数据集(如QM9、GEOM-Drugs)及其在无条件/条件生成任务中的适用性。
分子表示方式(如SMILES字符串、2D/3D图)直接影响模型性能。文章指出:
- 3D图表示需解决离散性(原子/键类型的分类变量)与连续性(坐标的实数变量)的兼容问题。
- 关键要求包括:E(3)等变性、排列不变性(Permutation Invariance)、数据分布捕获能力及生成样本的化学稳定性。
支持技术:
- 离散扩散(如Digress模型)通过转移概率矩阵处理原子/键类型,而连续扩散(如EDM)对独热编码向量添加高斯噪声。
- 潜在空间扩散(如GeoLDM)先将分子编码为连续特征,再实施稳定扩散,解码时恢复离散结构(图3)。
文章分类讨论了三种主流去噪架构及其代表性模型:
- 图神经网络(GNNs):如EDM、GCDM(采用GCPNet),擅长处理分子图的局部相互作用,但可能忽视长程依赖。
- 卷积神经网络(CNNs):如VoxMol(基于3D U-Net),通过体素化表示分子,适合体积数据但计算成本高。
- Transformer架构:如JODO(Diffusion Graph Transformer)、MiDi(Graph-Denoising Transformer),通过自注意力机制捕获全局关系,性能优越但需大量数据。
性能对比:
- 表2总结了各架构在QM9和GEOM-Drugs数据集上的表现,显示Transformer模型在3D稳定性和多样性上更具优势。
扩散模型已拓展至以下关键领域:
- 基于结构的药物设计(SBDD):如DiffSBDD、TargetDiff,以蛋白质口袋为条件生成配体,结合分子对接(Docking)优化结合亲和力(图5)。
- 片段生成与连接:如DiffLinker、FragDiff,通过片段组装加速先导化合物优化。
- 构象生成与分子动力学:如GeoDiff、Torsional Diffusion,高效采样低能构象,辅助结合机制研究。
案例数据:
- DiffDock在PDBBind数据集上实现38.2%的配体姿势预测精度(RMSD < 2Å),超越传统方法如Vina。
- 表3列举了16种应用模型及其在结合评分、多样性等指标上的表现。
文章指出四大挑战:
- 手性问题:多数模型缺乏对立体构型的敏感度(仅GCDM考虑)。
- 评价标准不统一:3D稳定性、原子价等定义因模型而异。
- 数据偏差:实验验证数据稀缺,制约模型在ADMET(吸收、分布、代谢、排泄、毒性)预测中的应用。
- 计算成本:大分子生成面临采样效率瓶颈。
解决方案展望:
- 开发手性感知的等变网络。
- 建立标准化基准(如结合DFT计算验证生成分子)。
- 利用扩散模型生成合成数据弥补领域空白(如hERG毒性预测)。
亮点总结
- 跨学科融合:将非平衡统计物理理论与深度学习结合,开创分子生成新范式。
- 技术全面性:涵盖从理论推导(公式1-10)到工程实践(表1-3)的全链条分析。
- 前沿导向:聚焦扩散模型在2022年后的快速进展,填补了此前综述的空白。
此综述为计算化学与AI交叉领域的研究者提供了技术路线图,同时为制药工业界评估生成式AI工具提供了实用指南。