这篇研究论文题为《Graph Regularized Probabilistic Matrix Factorization for Drug-Drug Interactions Prediction》,由Stuti Jain、Emilie Chouzenoux、Kriti Kumar和Angshul Majumdar共同撰写,分别来自INRIA Saclay, Université Paris-Saclay(法国)以及IIIT - Delhi(印度)。论文发表在 IEEE Journal of Biomedical and Health Informatics(Volume 27, Issue 5, May 2023)。本研究获得了欧洲研究委员会(ERC)和印度与法国联合团队COMPASS的资助。
药物-药物相互作用(Drug-Drug Interaction, DDI) 是指两种或多种药物同时服用时可能产生的药理效应,这些效应可能对患者的安全性产生较大风险。由DDI引发的不良药物反应可能导致患者严重受伤甚至死亡。因此,识别DDI对药物开发、市场药物的临床安全评估以及旧药物的重新开发都具有重要意义。
传统方法(例如体外/体内测试)识别DDI是一种高成本、高耗时的方式,且仅能覆盖有限的药物组合。因此,基于计算方法的大规模DDI预测成为近年来研究的热点。DDI预测的计算方法主要分为两类:基于药物相似性(e.g., 化学结构、靶向蛋白、药物副作用等)的方法,以及基于知识挖掘(如科学文献、电子病历)的方法。然而,由于临床样本的复杂性及药物相互作用矩阵的稀疏性,DDI预测仍存在多方面难度。
在此背景下,这篇论文提出了一种新的基于图正则化的概率矩阵分解(Graph Regularized Probabilistic Matrix Factorization, GRPMF)方法,用以克服现有方法的局限,更高效地预测药物相互作用。
研究的主工作可概括为以下几个步骤:
研究将DDI预测问题划归为矩阵补全问题(Matrix Completion)。具体而言,一个对称的稀疏矩阵表示药物间部分已知的相互作用(1为有交互,0为无交互或未知),目标是通过填充该稀疏矩阵预测未知部分。
论文采用概率矩阵分解(Probabilistic Matrix Factorization, PMF)的建模手段: - 假设观测矩阵元素服从高斯分布; - 融合高斯图模型,引入两个潜在矩阵(latent matrices),表示药物在拉丁潜在特征空间的表示。
得到优化问题如下:
$$\minimize_{U,V} \frac{1}{2\sigma^2} ||Y - B⊙UV||_F^2 + \frac{1}{2σ_u^2}||U||_F^2 + \frac{1}{2\sigma_v^2}||V||_F^2$$
为考虑药物之间潜在关联性(如化学结构相似度),研究引入图正则化(Graph Regularization)。通过构建先验图(Adjacency Graph)编码药物关系,该正则化鼓励模型更好地捕捉已知药物间的相似特性。研究创新性地利用SimComp药物化学结构相似性矩阵作为正则化先验知识的一部分。
最终形成优化方程:
$$ \min_{U,\Gamma} \frac{1}{2σ^2} || Y - B⊙(UU^⊤)||^2_F + λ_r||UU^⊤ - X||^2 + λ_u ⋅ tr(U^TΓU) - λ_u ⋅ logdet(Γ) $$ 其中变量Γ表示高斯图中的精度矩阵,将药物间相似性的专家知识融入了不可观测部分推断。
由于其优化目标非凸,研究采用分块交替优化法解决每个变量的子问题: 1. 用共轭梯度法(Conjugate Gradient)更新辅助变量X; 2. 用非线性共轭梯度方法更新潜在变量U; 3. 用图模型推断的连接关系更新Γ。
研究提出具体的迭代算法,并对此方法进行数值验证,显示其快速收敛性和稳定性。
研究对GRPMF模型的表现做了全面分析,并与现有方法(包括深度学习和机器学习算法,以及传统矩阵分解方法)进行对比: - 性能评估指标包括ROC曲线下面积(AUC)、准确率、加权精度及召回率等。 - GRPMF模型在AUC和AUPR(精确率-召回率曲线下的面积)指标上远超对比方法。 - GRPMF方法AUROC提高约5%-7%,AUPR提高28%-40%。
表明: 1. 基于专家知识建模优先结构图(SimComp先验)显著提高了预测能力; 2. 图正则化框架有效控制药物交互邻接矩阵的稀疏性与物理意义。
通过调整GRPMF关键超参数(如拉丁空间维数z、正则化权重λ_r和λ_u),分析其对模型性能的影响,发现: - z=20为最佳潜在空间维度; - λ_r=1对数据一致性最敏感; - λ_u=0.5最能平衡稀疏与图强制关联。
本文建议未来可以探索以下方向: 1. 引入更多种类的药物相似性特征(如靶点、功能机制); 2. 使用更大的数据集或跨平台的联合学习,以验证方法的普适性; 3. 增强预测矩阵的二值化约束,使结果更适配生物医学应用需求。
通过本研究,作者团队为解决DDI预测难题提供了新思路,为药物化学与数据科学的交叉研究奠定了重要基础。