分享自:

基于3D等变扩散的目标感知分子生成与亲和力预测

期刊:ICLR 2023

基于3D等变扩散模型的靶向分子生成与亲和力预测研究

作者与发表信息

本研究由美国伊利诺伊大学厄巴纳-香槟分校计算机科学系的Jiaqi Guan和Wesley Wei Qian、北京大学智能科学与技术学院的Xingang Peng、伊利诺伊大学的Yufeng Su、Jian Peng以及清华大学人工智能产业研究院的Jianzhu Ma共同完成。该研究以《3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction》为题,发表于ICLR 2023会议。

学术背景

在药物发现领域,针对特定蛋白质靶点的计算机辅助药物设计(in silico drug design)已成为重要研究方向。传统基于分子字符串(如SMILES)或图表示(graph representation)的生成模型无法有效捕捉三维空间中的原子相互作用。随着结构生物学和蛋白质结构预测(如AlphaFold)的发展,3D结构数据日益丰富,为开发靶向药物设计算法提供了新机遇。

当前3D靶向分子生成方法存在三大局限:(1)部分模型仅将靶蛋白作为条件嵌入,未显式建模3D空间相互作用;(2)基于体素化(voxelization)的方法不具备旋转等变性(rotational equivariance);(3)自回归采样(autoregressive sampling)方法存在曝光偏差(exposure bias)、违反几何约束等问题。为解决这些挑战,本研究开发了名为TargetDiff的3D等变扩散模型。

研究方法与流程

1. 问题定义与模型框架

研究将蛋白质结合位点表示为原子点集P={(x_p,v_p)},其中x_p∈R³为原子坐标,v_p∈R^{nf}为原子特征。目标是在蛋白质靶点条件下生成结合分子M={(x_l,v_l)}。TargetDiff采用潜在变量模型形式pθ(m0|p)=∫pθ(m0:t|p)dm1:t,包含前向扩散过程和反向生成过程两个马尔可夫链。

2. 分子扩散过程

模型对连续原子坐标和离散原子类型分别定义扩散过程: - 原子坐标:采用高斯分布N,逐步添加噪声 - 原子类型:采用分类分布C,添加均匀噪声 噪声添加遵循固定方差计划β1,…,βT的马尔可夫链。通过巧妙设计,可在任意时间步t计算噪声数据分布的闭式解。

3. 等变分子生成过程

核心创新在于构建SE(3)-等变网络φθ: - 通过平移蛋白质原子质心至原点实现平移不变性 - 使用SE(3)-等变图神经网络交替更新原子隐藏嵌入和坐标 - 网络架构包含9层等变层,采用128维隐藏特征和16个注意力头 - 距离信息通过0-10Å范围内的20个径向基函数编码

4. 训练目标

结合坐标损失和原子类型损失: - 坐标损失:非加权均方误差(unweighted MSE) - 原子类型损失:分类分布的KL散度 最终损失函数为加权和:L = L{coord} + λL{type}(λ=100)

5. 亲和力预测

模型可作为无监督特征提取器: - 冻结坐标更新分支,仅通过隐藏嵌入预测原子类型 - 利用预测原子类型的熵评估结合亲和力 - 最终隐藏嵌入hl通过线性变换可显著提升亲和力排名效果

主要实验结果

1. 分子结构评估

在CrossDocked2020数据集上的测试表明: - 全原子距离分布:TargetDiff的Jensen-Shannon散度(0.089)显著优于基线(AR:0.119,Pocket2Mol:0.138) - 碳-碳键距离:对芳香键(c:c)的JSD仅为0.263,而基线模型在0.416-0.497之间 - 刚性片段一致性:经MMFF力场优化后,TargetDiff生成片段的RMSD中位数最低

2. 结合亲和力评估

  • 在57%测试靶点上,TargetDiff生成分子显示出最佳结合亲和力(Vina能量中位数)
  • 58.1%生成分子亲和力优于参考分子,显著高于基线(AR:37.9%,Pocket2Mol:48.4%)
  • 结合位点覆盖分析显示,TargetDiff能生成更完整的结合模式(COM偏移中位数1.45Å vs AR的1.79Å)

3. 分子性质评估

在保持合理QED(0.48)和SA(0.58)分数前提下: - 生成多样性(Tanimoto距离)达0.72,优于多数基线 - 特别擅长生成5元环(30.8% vs 参考30.2%)和6元环(50.7% vs 参考67.4%) - 避免了基线模型常见的3/4元环过度生成问题

4. 亲和力预测应用

  • 原子类型熵与实验测量亲和力(pK)的Spearman相关系数达0.35
  • 结合Vina评分可将相关性提升至0.46
  • 在PDBBind v2020时间分割测试集上,使用TargetDiff特征的EGNN模型取得最佳预测效果(RMSE=1.374,Pearson=0.680)

研究结论与价值

本研究提出的TargetDiff是首个用于靶向药物设计的概率扩散框架,具有三大创新: 1. 端到端的3D靶向分子生成系统,显式建模蛋白质-分子物理相互作用 2. 非自回归的SE(3)-等变生成过程,通过质心平移和等变GNN实现 3. 首次建立生成模型与结合亲和力的关联,实现无监督特征提取

科学价值体现在: - 为3D分子生成提供了严格的等变概率框架 - 生成的分子具有更真实的几何结构和更好的结合亲和力 - 可作为评分函数或特征提取器辅助药物筛选

应用价值包括: - 加速靶向药物发现流程 - 提高生成分子的可合成性和多样性 - 无需重新训练即可用于亲和力预测任务

研究亮点

  1. 方法学创新:首次将扩散模型应用于3D靶向分子生成,解决自回归方法的固有局限
  2. 技术实现:开发了具有理论保证的SE(3)-等变架构,通过”质心平移”巧妙实现平移不变性
  3. 评估体系:提出全面的3D分子评估框架,包含结构、亲和力和性质多维度指标
  4. 应用拓展:证明生成模型可服务于下游预测任务,开辟药物发现新范式

未来方向

作者建议三个有前景的扩展: 1. 将键生成纳入扩散过程,避免后处理步骤 2. 开发基于分子片段的生成策略 3. 整合更多可合成子结构先验知识

该研究代码已开源(GitHub: guanjq/targetdiff),为计算药物设计领域提供了强有力的新工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com