基于3D等变扩散的目标感知分子生成与亲和力预测

分享自：
基于3D等变扩散的目标感知分子生成与亲和力预测

化学
医学
期刊:ICLR 2023
基于3D等变扩散模型的靶向分子生成与亲和力预测研究作者与发表信息本研究由美国伊利诺伊大学厄巴纳-香槟分校计算机科学系的Jiaqi Guan和Wesley Wei Qian、北京大学智能科学与技术学院的Xingang Peng、伊利诺伊大学的Yufeng Su、Jian Peng以及清华大学人工智能产业研究院的Jianzhu Ma共同完成。该研究以《3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction》为题，发表于ICLR 2023会议。
学术背景在药物发现领域，针对特定蛋白质靶点的计算机辅助药物设计（in silico drug design）已成为重要研究方向。传统基于分子字符串（如SMILES）或图表示（graph representation）的生成模型无法有效捕捉三维空间中的原子相互作用。随着结构生物学和蛋白质结构预测（如AlphaFold）的发展，3D结构数据日益丰富，为开发靶向药物设计算法提供了新机遇。
当前3D靶向分子生成方法存在三大局限：(1)部分模型仅将靶蛋白作为条件嵌入，未显式建模3D空间相互作用；(2)基于体素化（voxelization）的方法不具备旋转等变性（rotational equivariance）；(3)自回归采样（autoregressive sampling）方法存在曝光偏差（exposure bias）、违反几何约束等问题。为解决这些挑战，本研究开发了名为TargetDiff的3D等变扩散模型。
研究方法与流程1. 问题定义与模型框架研究将蛋白质结合位点表示为原子点集P={(x_p,v_p)}，其中x_p∈R³为原子坐标，v_p∈R^{nf}为原子特征。目标是在蛋白质靶点条件下生成结合分子M={(x_l,v_l)}。TargetDiff采用潜在变量模型形式pθ(m0|p)=∫pθ(m0:t|p)dm1:t，包含前向扩散过程和反向生成过程两个马尔可夫链。
2. 分子扩散过程模型对连续原子坐标和离散原子类型分别定义扩散过程： - 原子坐标：采用高斯分布N，逐步添加噪声 - 原子类型：采用分类分布C，添加均匀噪声 噪声添加遵循固定方差计划β1,…,βT的马尔可夫链。通过巧妙设计，可在任意时间步t计算噪声数据分布的闭式解。
3. 等变分子生成过程核心创新在于构建SE(3)-等变网络φθ： - 通过平移蛋白质原子质心至原点实现平移不变性 - 使用SE(3)-等变图神经网络交替更新原子隐藏嵌入和坐标 - 网络架构包含9层等变层，采用128维隐藏特征和16个注意力头 - 距离信息通过0-10Å范围内的20个径向基函数编码
4. 训练目标结合坐标损失和原子类型损失： - 坐标损失：非加权均方误差（unweighted MSE） - 原子类型损失：分类分布的KL散度 最终损失函数为加权和：L = L{coord} + λL{type}（λ=100）
5. 亲和力预测模型可作为无监督特征提取器： - 冻结坐标更新分支，仅通过隐藏嵌入预测原子类型 - 利用预测原子类型的熵评估结合亲和力 - 最终隐藏嵌入hl通过线性变换可显著提升亲和力排名效果
主要实验结果1. 分子结构评估在CrossDocked2020数据集上的测试表明： - 全原子距离分布：TargetDiff的Jensen-Shannon散度（0.089）显著优于基线（AR:0.119,Pocket2Mol:0.138） - 碳-碳键距离：对芳香键（c:c）的JSD仅为0.263，而基线模型在0.416-0.497之间 - 刚性片段一致性：经MMFF力场优化后，TargetDiff生成片段的RMSD中位数最低
2. 结合亲和力评估在57%测试靶点上，TargetDiff生成分子显示出最佳结合亲和力（Vina能量中位数）
58.1%生成分子亲和力优于参考分子，显著高于基线（AR:37.9%,Pocket2Mol:48.4%）
结合位点覆盖分析显示，TargetDiff能生成更完整的结合模式（COM偏移中位数1.45Å vs AR的1.79Å）
3. 分子性质评估在保持合理QED（0.48）和SA（0.58）分数前提下： - 生成多样性（Tanimoto距离）达0.72，优于多数基线 - 特别擅长生成5元环（30.8% vs 参考30.2%）和6元环（50.7% vs 参考67.4%） - 避免了基线模型常见的3/4元环过度生成问题
4. 亲和力预测应用原子类型熵与实验测量亲和力（pK）的Spearman相关系数达0.35
结合Vina评分可将相关性提升至0.46
在PDBBind v2020时间分割测试集上，使用TargetDiff特征的EGNN模型取得最佳预测效果（RMSE=1.374，Pearson=0.680）
研究结论与价值本研究提出的TargetDiff是首个用于靶向药物设计的概率扩散框架，具有三大创新： 1. 端到端的3D靶向分子生成系统，显式建模蛋白质-分子物理相互作用 2. 非自回归的SE(3)-等变生成过程，通过质心平移和等变GNN实现 3. 首次建立生成模型与结合亲和力的关联，实现无监督特征提取
科学价值体现在： - 为3D分子生成提供了严格的等变概率框架 - 生成的分子具有更真实的几何结构和更好的结合亲和力 - 可作为评分函数或特征提取器辅助药物筛选
应用价值包括： - 加速靶向药物发现流程 - 提高生成分子的可合成性和多样性 - 无需重新训练即可用于亲和力预测任务
研究亮点方法学创新：首次将扩散模型应用于3D靶向分子生成，解决自回归方法的固有局限
技术实现：开发了具有理论保证的SE(3)-等变架构，通过”质心平移”巧妙实现平移不变性
评估体系：提出全面的3D分子评估框架，包含结构、亲和力和性质多维度指标
应用拓展：证明生成模型可服务于下游预测任务，开辟药物发现新范式
未来方向作者建议三个有前景的扩展： 1. 将键生成纳入扩散过程，避免后处理步骤 2. 开发基于分子片段的生成策略 3. 整合更多可合成子结构先验知识
该研究代码已开源（GitHub: guanjq/targetdiff），为计算药物设计领域提供了强有力的新工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问