本研究由美国伊利诺伊大学厄巴纳-香槟分校计算机科学系的Jiaqi Guan和Wesley Wei Qian、北京大学智能科学与技术学院的Xingang Peng、伊利诺伊大学的Yufeng Su、Jian Peng以及清华大学人工智能产业研究院的Jianzhu Ma共同完成。该研究以《3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction》为题,发表于ICLR 2023会议。
在药物发现领域,针对特定蛋白质靶点的计算机辅助药物设计(in silico drug design)已成为重要研究方向。传统基于分子字符串(如SMILES)或图表示(graph representation)的生成模型无法有效捕捉三维空间中的原子相互作用。随着结构生物学和蛋白质结构预测(如AlphaFold)的发展,3D结构数据日益丰富,为开发靶向药物设计算法提供了新机遇。
当前3D靶向分子生成方法存在三大局限:(1)部分模型仅将靶蛋白作为条件嵌入,未显式建模3D空间相互作用;(2)基于体素化(voxelization)的方法不具备旋转等变性(rotational equivariance);(3)自回归采样(autoregressive sampling)方法存在曝光偏差(exposure bias)、违反几何约束等问题。为解决这些挑战,本研究开发了名为TargetDiff的3D等变扩散模型。
研究将蛋白质结合位点表示为原子点集P={(x_p,v_p)},其中x_p∈R³为原子坐标,v_p∈R^{nf}为原子特征。目标是在蛋白质靶点条件下生成结合分子M={(x_l,v_l)}。TargetDiff采用潜在变量模型形式pθ(m0|p)=∫pθ(m0:t|p)dm1:t,包含前向扩散过程和反向生成过程两个马尔可夫链。
模型对连续原子坐标和离散原子类型分别定义扩散过程: - 原子坐标:采用高斯分布N,逐步添加噪声 - 原子类型:采用分类分布C,添加均匀噪声 噪声添加遵循固定方差计划β1,…,βT的马尔可夫链。通过巧妙设计,可在任意时间步t计算噪声数据分布的闭式解。
核心创新在于构建SE(3)-等变网络φθ: - 通过平移蛋白质原子质心至原点实现平移不变性 - 使用SE(3)-等变图神经网络交替更新原子隐藏嵌入和坐标 - 网络架构包含9层等变层,采用128维隐藏特征和16个注意力头 - 距离信息通过0-10Å范围内的20个径向基函数编码
结合坐标损失和原子类型损失: - 坐标损失:非加权均方误差(unweighted MSE) - 原子类型损失:分类分布的KL散度 最终损失函数为加权和:L = L{coord} + λL{type}(λ=100)
模型可作为无监督特征提取器: - 冻结坐标更新分支,仅通过隐藏嵌入预测原子类型 - 利用预测原子类型的熵评估结合亲和力 - 最终隐藏嵌入hl通过线性变换可显著提升亲和力排名效果
在CrossDocked2020数据集上的测试表明: - 全原子距离分布:TargetDiff的Jensen-Shannon散度(0.089)显著优于基线(AR:0.119,Pocket2Mol:0.138) - 碳-碳键距离:对芳香键(c:c)的JSD仅为0.263,而基线模型在0.416-0.497之间 - 刚性片段一致性:经MMFF力场优化后,TargetDiff生成片段的RMSD中位数最低
在保持合理QED(0.48)和SA(0.58)分数前提下: - 生成多样性(Tanimoto距离)达0.72,优于多数基线 - 特别擅长生成5元环(30.8% vs 参考30.2%)和6元环(50.7% vs 参考67.4%) - 避免了基线模型常见的3/4元环过度生成问题
本研究提出的TargetDiff是首个用于靶向药物设计的概率扩散框架,具有三大创新: 1. 端到端的3D靶向分子生成系统,显式建模蛋白质-分子物理相互作用 2. 非自回归的SE(3)-等变生成过程,通过质心平移和等变GNN实现 3. 首次建立生成模型与结合亲和力的关联,实现无监督特征提取
科学价值体现在: - 为3D分子生成提供了严格的等变概率框架 - 生成的分子具有更真实的几何结构和更好的结合亲和力 - 可作为评分函数或特征提取器辅助药物筛选
应用价值包括: - 加速靶向药物发现流程 - 提高生成分子的可合成性和多样性 - 无需重新训练即可用于亲和力预测任务
作者建议三个有前景的扩展: 1. 将键生成纳入扩散过程,避免后处理步骤 2. 开发基于分子片段的生成策略 3. 整合更多可合成子结构先验知识
该研究代码已开源(GitHub: guanjq/targetdiff),为计算药物设计领域提供了强有力的新工具。