分享自:

基于路径的图神经网络用于药物协同作用预测与解释

期刊:Journal of Chemical Information and ModelingDOI:10.1021/acs.jcim.5c02569

基于路径的图神经网络用于药物协同作用预测与解释的研究报告

本文旨在介绍Shuo Wang, Hongchuan Yuan, Zhengcheng Hong, Xian-Gan Chen,* 和 Xiaofei Yang等研究者于2025年12月20日(修订版)在《Journal of Chemical Information and Modeling》期刊上发表的一项原创性研究。该研究题为“Path-Based Graph Neural Network for Drug Synergy Prediction and Interpretation”,提出了一种名为SDCInterpreter的新模型,旨在解决当前药物协同作用预测模型普遍存在的“黑箱”问题,实现对预测结果的机制性解释。

一、 作者与发表信息 本研究的作者均来自中南民族大学生物医学工程学院、湖北省医学信息分析与肿瘤诊疗重点实验室及国家民委认知科学重点实验室。通讯作者为Xian-Gan Chen。该研究发表于《Journal of Chemical Information and Modeling》期刊,线上发表日期为2025年12月20日,稿件接收日期为2025年10月23日,并于2025年12月16日完成修订。

二、 学术背景与目标 药物组合疗法(Combination Therapy)在治疗癌症等复杂疾病方面展现出增效减毒的显著优势,临床应用前景广阔。然而,随着待筛选药物组合数量的激增,传统实验方法成本高昂且效率低下。因此,利用计算方法预测药物协同作用(Drug Synergy)已成为重要研究方向,并已有众多基于深度学习的预测模型(如DeepSynergy, DTF, DeepDDS等)取得了优异性能。尽管如此,当前领域仍面临两大核心挑战:第一,多数预测模型缺乏可解释性,无法阐明其预测结果的依据;第二,现有少数可解释性方法(主要基于注意力机制或SHAP值)通常仅识别对预测贡献大的单个基因或药物子结构,忽略了生物分子在复杂网络中的功能协同关系,难以提供系统性的、符合生物学通路的机制解释。

针对以上挑战,本研究的目标是开发一个既能高精度预测药物协同作用,又能提供基于生物学通路(Pathway)的、可解释性路径的模型。具体而言,研究者旨在构建一个整合药物、基因、通路和细胞系等多种生物实体的异质图(Heterogeneous Graph),利用图神经网络进行节点表示学习以完成预测,并创新性地通过掩码学习和路径搜索算法,挖掘对协同预测影响最大的边(关系),从而生成用于解释药物协同机制的生物学路径。

三、 研究流程与详细方法 本研究的工作流程主要分为两大部分:药物协同作用预测模型的构建与协同作用预测结果的解释。

第一部分:药物协同作用预测模型的构建

  1. 异质图构建与数据整合:模型的核心是构建一个包含五种节点类型(药物、基因、通路、细胞系和虚拟节点)和四种边类型(虚拟节点-药物、药物-基因、通路-基因、细胞系-基因)的异质图。数据来源包括:

    • 药物协同数据:来自DrugCombDB数据库,是目前最全面的药物组合数据库。
    • 药物-基因关联:来自已发表研究,涵盖FDA批准或临床研究的药物。
    • 通路-基因关联:来自TTD(Therapeutic Target Database)数据库。
    • 细胞系-基因关联:来自CCLE(Cancer Cell Line Encyclopedia)数据库,通过计算基因表达数据的Z值判断关联是否存在。
    • 最终构建的异质图包含17,043个生物实体和42,642条连接关系。其中,为每个药物组合引入一个“虚拟节点”,旨在将协同作用的解释任务转化为寻找从该虚拟节点到特定细胞线节点的可解释连接。
  2. 节点特征初始化:为处理不同类型的节点和边,研究为每种节点类型和边类型分别初始化了可学习的随机嵌入向量,将所有实体映射到同一特征空间。

  3. 图表示学习:采用关系图卷积网络(Relational Graph Convolutional Network, R-GCN)在构建的异质图上进行消息传递与节点嵌入更新。R-GCN能够为不同类型的边关系分配不同的权重矩阵,从而更好地建模不同生物关系对节点的影响。通过多层R-GCN的聚合,每个节点(如药物节点、细胞系节点)的最终嵌入特征能够捕获其多跳邻居的信息,蕴含了丰富的网络交互信息。

  4. 模型训练与预测:对于一个给定的药物-药物-细胞系三元组,模型提取两个药物节点和一个细胞系节点的最终嵌入特征,将其拼接后输入到一个多层感知机(MLP)中,最后通过Sigmoid函数输出该组合具有协同作用的概率得分。模型采用二元交叉熵损失函数进行训练。为了全面评估模型性能,研究设计了三种交叉验证场景:随机划分、按细胞系分层划分(测试新细胞系)、按药物组合分层划分(测试新药物组合)。

第二部分:药物协同作用预测的解释

  1. 协同样本选择:在训练好的预测模型上,对独立测试集进行预测,将预测得分高于阈值(0.5)的样本标记为协同样本,用于后续解释。

  2. 子图提取:为每个待解释的协同三元组,从其对应的异质图中提取一个计算子图。首先提取以虚拟节点和细胞系节点为中心的n跳(研究中n=5)子图,确保包含局部邻域信息;随后应用k-core(研究中k=200)剪枝算法,递归删除图中度小于k的节点,以简化图结构并移除弱关联节点,得到最终的计算子图。

  3. 掩码学习:这是实现可解释性的核心步骤。研究团队在计算子图的所有边上学习一个可训练的掩码矩阵。掩码学习的目标是学习到一个能够对边进行选择性过滤的掩码,使得掩码后的图(即保留重要边的子图)既能维持模型原有的高协同预测概率,又能形成信息丰富且简洁的路径。为此,研究者设计了联合优化两个损失函数:

    • 预测损失:最小化原始子图与掩码子图在预测该三元组为协同时的概率差异,确保保留的边对预测结果有重要影响。
    • 路径损失:通过边评分函数(综合考虑边的掩码权重和目标节点的度)筛选出潜在的候选边集,优化目标是增大候选边的掩码权重,减小非候选边的掩码权重。边评分函数为:score(e) = log(σ(m_e)) - log(d_v),其中σ(m_e)是边被选中的概率,d_v是目标节点的度。该设计倾向于选择预测贡献大且连接度适中的边,避免高度节点带来的冗余信息。
  4. 可解释路径生成:在掩码学习收敛后,将学习到的边权重转化为边的距离(负分数),在计算子图上使用Dijkstra最短路径算法,以虚拟节点为起点,细胞系节点为终点,寻找分数最高(即距离最短)的若干条路径。这些路径即为模型生成的、用于解释该药物组合对特定细胞系产生协同作用的生物学机制路径。路径中的节点序列(如:虚拟节点 -> 药物A -> 基因X -> 通路Y -> 细胞系)直观展示了药物如何通过作用于特定靶点基因,影响相关通路,最终导致细胞系表型变化的潜在链条。

四、 主要研究结果 1. 预测性能评估:在DrugCombDB数据集上的实验表明,SDCInterpreter在随机交叉验证场景下取得了最佳性能,AUC(曲线下面积)达到0.8397,准确率(Acc)达到0.7541,显著优于包括DeepSynergy、MatchMaker、DFFNDDS、KGANsynergy和HyperGraphSynergy在内的多个先进基线模型。这证实了整合多生物实体关联数据及利用异质图拓扑结构进行表示学习的有效性。在更具挑战性的按细胞系分层按药物组合分层的交叉验证中,模型性能虽有所下降,但仍与最佳基线方法表现相当,表明其对新颖细胞系和药物组合仍具有一定泛化能力。

  1. 消融实验:通过构建多个模型变体进行消融研究,验证了各组件的重要性。

    • 移除通路节点(w/o P)导致准确率下降最显著,说明通路信息对于捕捉节点间潜在相互作用至关重要。
    • 移除消息传递(w/o MP)或关系权重(w/o RW)均导致AUC等指标下降,证明了图神经网络聚合邻居信息以及区分不同生物关系类型的价值。
    • 所有变体的性能均低于完整模型,综合证实了SDCInterpreter每个设计环节的有效性。
  2. 特定癌症类型性能:模型在独立测试集上对17种特定癌症类型进行了评估。在大多数癌症类型(如成熟B细胞肿瘤、黑色素瘤、非小细胞肺癌等)上,SDCInterpreter的AUC均高于0.76,表现出良好性能。而在样本量极少的尤文肉瘤和霍奇金淋巴瘤上表现较差,分析认为是样本量不足限制了模型的泛化。

  3. 超参数敏感性分析:对掩码学习中平衡候选边与非候选边权重的超参数α和β进行了分析。实验发现,当α=0.01,β=0.25时模型取得最佳可解释性。结果表明,在给定范围内,适当增加候选边任务的权重(α)以及更强调降低非候选边权重的任务(β > α),有助于模型挖掘出更真实的解释路径。

  4. 可解释性有效性评估(定量):由于缺乏标准的可解释性评估数据集,研究者利用已验证的生物关系数据生成“真实路径”作为基准。将学习到的边掩码权重视为预测分数,与GNNExplainer和PGExplainer等通用图解释方法进行比较。SDCInterpreter在AUC和召回率(Recall)指标上均显著优于基线方法,表明其生成的掩码与真实生物学解释有更高的吻合度。

  5. 案例分析(定性):研究提供了两个具体案例来直观展示SDCInterpreter的解释能力。

    • 案例一:吉西他滨(Gemcitabine)与达沙替尼(Dasatinib)对卵巢癌细胞系CAOV3的协同。模型生成的解释路径涉及RRM1、NOS2、RAF1、MDM4等靶点基因,以及代谢通路和癌症中的microRNAs通路。文献支持表明,这些基因和通路与卵巢癌的增殖、凋亡和耐药性密切相关,例如RRM1过表达加速卵巢癌细胞增殖,MDM4影响p53的肿瘤抑制功能。路径显示两种药物可能通过靶向不同通路上的游分子,实现对癌症信号的双重阻断。
    • 案例二:维莫非尼(Vemurafenib)与塞来昔布(Celecoxib)对乳腺癌细胞系MDAMB231的协同。解释路径涉及RAF1、BRAF、MAPK14、PDPK1等靶点,以及PI3K-Akt信号通路和癌症通路。文献指出,PDPK1能激活PI3K/Akt信号,GSK3B(细胞系靶点)是该通路的关键调节因子并与乳腺癌耐药相关。路径表明两种药物可能通过分别抑制RAF和PDK1,共同调控PI3K-Akt通路,降低GSK3B活性,从而产生协同治疗效果。 这些案例表明,SDCInterpreter生成的路径不仅包含关键靶点,还揭示了这些靶点在生物学网络中的上下游连接关系,提供了更系统、更符合生物学背景的机制假设。

五、 结论与价值 本研究成功提出并验证了SDCInterpreter,一个基于路径的、可解释的图神经网络模型,用于药物协同作用的预测与解释。该模型的核心贡献在于,它将药物协同预测的可解释性问题,转化为在异质生物网络中寻找从药物组合到细胞系的有意义连接路径的问题。

  • 科学价值:SDCInterpreter突破了现有可解释性方法仅关注孤立基因或特征的局限,提供了从“通路”和“网络”层面理解药物协同机制的新视角。其提出的掩码学习与最短路径算法相结合的框架,为图神经网络在生物医学领域的可解释性研究提供了新的方法论参考。
  • 应用价值:模型不仅能够高精度预测药物协同,其生成的解释路径能为实验生物学家和临床研究人员提供直接的、可验证的机制假说,有助于加速合理的药物组合设计与发现,推动精准医疗和联合疗法的发展。

六、 研究亮点 1. 可解释性方法的创新:首次将基于路径的解释系统地引入药物协同预测领域,通过生成连贯的生物学路径(而非离散的重要特征)来解释模型决策,解释结果更直观、更符合生物学家的思维习惯。 2. 巧妙的模型设计:引入“虚拟节点”来表示药物组合,将复杂的多药物-细胞系相互作用解释,优雅地简化为从单一点(虚拟节点)到目标点(细胞系)的路径搜索问题。 3. 全面的异质图整合:构建了大规模、多类型的生物医学知识异质图,充分融合了药物、基因、通路、细胞系之间的多元关系,为学习高质量的节点表示和发现潜在机制奠定了基础。 4. 有效的联合优化策略:掩码学习阶段设计的联合损失函数(预测损失+路径损失),同时保证了解释路径对预测结果的重要性和路径本身的信息量与简洁性。 5. 扎实的验证体系:研究不仅进行了严格的预测性能对比和消融实验,还创新性地进行了可解释性的定量评估,并通过详实的案例研究定性展示了模型解释的生物学合理性,验证体系全面。

七、 其他有价值内容 研究者公开了本研究的源代码和数据,便于其他研究人员复现和进一步开发。同时,文章也指出了模型的局限性,例如异质图中节点和关系的动态更新可能影响模型的时效性。未来工作考虑纳入更多类型的生物实体和关系,以提供更全面的预测与解释分析。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com