分享自:

药物间相互作用预测的图正则化概率矩阵分解方法

期刊:ieee journal of biomedical and health informaticsDOI:10.1109/jbhi.2023.3246225

综合报告

研究背景与发表信息

这篇研究论文题为《Graph Regularized Probabilistic Matrix Factorization for Drug-Drug Interactions Prediction》,由Stuti Jain、Emilie Chouzenoux、Kriti Kumar和Angshul Majumdar共同撰写,分别来自INRIA Saclay, Université Paris-Saclay(法国)以及IIIT - Delhi(印度)。论文发表在 IEEE Journal of Biomedical and Health Informatics(Volume 27, Issue 5, May 2023)。本研究获得了欧洲研究委员会(ERC)和印度与法国联合团队COMPASS的资助。

科学背景与研究目标

药物-药物相互作用(Drug-Drug Interaction, DDI) 是指两种或多种药物同时服用时可能产生的药理效应,这些效应可能对患者的安全性产生较大风险。由DDI引发的不良药物反应可能导致患者严重受伤甚至死亡。因此,识别DDI对药物开发、市场药物的临床安全评估以及旧药物的重新开发都具有重要意义。

传统方法(例如体外/体内测试)识别DDI是一种高成本、高耗时的方式,且仅能覆盖有限的药物组合。因此,基于计算方法的大规模DDI预测成为近年来研究的热点。DDI预测的计算方法主要分为两类:基于药物相似性(e.g., 化学结构、靶向蛋白、药物副作用等)的方法,以及基于知识挖掘(如科学文献、电子病历)的方法。然而,由于临床样本的复杂性及药物相互作用矩阵的稀疏性,DDI预测仍存在多方面难度。

在此背景下,这篇论文提出了一种新的基于图正则化的概率矩阵分解(Graph Regularized Probabilistic Matrix Factorization, GRPMF)方法,用以克服现有方法的局限,更高效地预测药物相互作用。

研究工作流程

研究的主工作可概括为以下几个步骤:


1. 求解矩阵补全问题

研究将DDI预测问题划归为矩阵补全问题(Matrix Completion)。具体而言,一个对称的稀疏矩阵表示药物间部分已知的相互作用(1为有交互,0为无交互或未知),目标是通过填充该稀疏矩阵预测未知部分。


2. 矩阵分解的概率模型

论文采用概率矩阵分解(Probabilistic Matrix Factorization, PMF)的建模手段: - 假设观测矩阵元素服从高斯分布; - 融合高斯图模型,引入两个潜在矩阵(latent matrices),表示药物在拉丁潜在特征空间的表示。

得到优化问题如下:
$$\minimize_{U,V} \frac{1}{2\sigma^2} ||Y - B⊙UV||_F^2 + \frac{1}{2σ_u^2}||U||_F^2 + \frac{1}{2\sigma_v^2}||V||_F^2$$


3. 引入图正则化的改进

为考虑药物之间潜在关联性(如化学结构相似度),研究引入图正则化(Graph Regularization)。通过构建先验图(Adjacency Graph)编码药物关系,该正则化鼓励模型更好地捕捉已知药物间的相似特性。研究创新性地利用SimComp药物化学结构相似性矩阵作为正则化先验知识的一部分。

最终形成优化方程:
$$ \min_{U,\Gamma} \frac{1}{2σ^2} || Y - B⊙(UU^⊤)||^2_F + λ_r||UU^⊤ - X||^2 + λ_u ⋅ tr(U^TΓU) - λ_u ⋅ logdet(Γ) $$ 其中变量Γ表示高斯图中的精度矩阵,将药物间相似性的专家知识融入了不可观测部分推断。


4. 优化与算法实现

由于其优化目标非凸,研究采用分块交替优化法解决每个变量的子问题: 1. 用共轭梯度法(Conjugate Gradient)更新辅助变量X; 2. 用非线性共轭梯度方法更新潜在变量U; 3. 用图模型推断的连接关系更新Γ。

研究提出具体的迭代算法,并对此方法进行数值验证,显示其快速收敛性和稳定性。


数据与实验设计

  • 数据来源:实验所用DDI数据来自斯坦福大学及DrugBank公开数据库,包括总计927种药物,约48,514个已知药物交互。
  • 先验知识:药物相似度使用SimComp方法计算,生成一个与药物特性相关的权重矩阵作为输入。
  • 样本划分:研究采用随机划分,20%药物交互作为训练数据,80%为测试集。

实验结果与分析

1. 结果总结

研究对GRPMF模型的表现做了全面分析,并与现有方法(包括深度学习和机器学习算法,以及传统矩阵分解方法)进行对比: - 性能评估指标包括ROC曲线下面积(AUC)、准确率、加权精度及召回率等。 - GRPMF模型在AUC和AUPR(精确率-召回率曲线下的面积)指标上远超对比方法。 - GRPMF方法AUROC提高约5%-7%,AUPR提高28%-40%。

2. 主要结果

表明: 1. 基于专家知识建模优先结构图(SimComp先验)显著提高了预测能力; 2. 图正则化框架有效控制药物交互邻接矩阵的稀疏性与物理意义。

3. 消融研究

通过调整GRPMF关键超参数(如拉丁空间维数z、正则化权重λ_r和λ_u),分析其对模型性能的影响,发现: - z=20为最佳潜在空间维度; - λ_r=1对数据一致性最敏感; - λ_u=0.5最能平衡稀疏与图强制关联。


研究意义与价值

  • 科学意义:通过概率矩阵分解的新融合方法,本文提出一种既能综合复杂生物属性又对稀疏数据更鲁棒的DDI预测工具。
  • 应用价值:本方法有潜力推动医药研发中的药物组合优化、新药筛查,以及临床治疗方案的安全性评估。
  • 方法创新:首次以SimComp主动约束矩阵联结药物相互作用的潜在图嵌入建模,是本研究最重要的贡献之一。

研究亮点

  • 原理与建模亮点:将专家先验充分融入PMF模型框架中,用以学习药物间的隐含相似性。
  • 性能突出:在使用有限训练数据的场景下,GRPMF对稀疏互动矩阵补全表现出清晰的优势。
  • 交叉学科性:该研究结合了机器学习、图模型、化学药物的相似性与数值优化算法,为推进生物信息学领域的智能方法提供新方向。

未来展望

本文建议未来可以探索以下方向: 1. 引入更多种类的药物相似性特征(如靶点、功能机制); 2. 使用更大的数据集或跨平台的联合学习,以验证方法的普适性; 3. 增强预测矩阵的二值化约束,使结果更适配生物医学应用需求。

通过本研究,作者团队为解决DDI预测难题提供了新思路,为药物化学与数据科学的交叉研究奠定了重要基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com