学术研究报告:KGANSynergy——一种基于知识图谱注意力网络的药物协同作用预测模型
一、 研究团队与发表信息
本研究由来自中国河南大学计算机与信息工程学院的葛张副教授、高志杰(研究生)、鄢朝坤教授、王建林副教授、梁文娟讲师,以及河南理工大学的罗俊伟副教授和河南大学的罗慧敏副教授共同完成。该研究成果以题为“KGANSynergy: knowledge graph attention network for drug synergy prediction”的学术论文形式,发表于生物信息学领域的知名期刊《Briefings in Bioinformatics》2023年第24卷第3期。论文于2022年9月11日收到,2023年3月10日修订,2023年4月3日被接受,并于2023年5月2日在线优先出版。
二、 学术背景与研究目标
研究领域: 本研究属于计算生物学与生物信息学交叉领域,具体聚焦于利用人工智能(Artificial Intelligence, AI)和深度学习技术进行药物组合协同作用的计算预测。
研究背景与动机: 联合疗法(Combination Therapy)是治疗癌症、HIV、心血管疾病等复杂疾病的重要手段。相较于单一用药,药物组合能够降低耐药性、提高疗效。然而,通过传统临床试验或高通量筛选(High-Throughput Screening, HTS)技术发现有效的药物组合不仅耗时、昂贵,且难以应对巨大的组合搜索空间。因此,开发高效、经济的计算方法来预测药物协同作用(Drug Synergy)具有重要的研究价值和社会意义。近年来,多种计算方法被提出,包括系统生物学方法、数学模型、动力学模型和机器学习方法。其中,深度学习模型因其能从大规模数据中自动提取特征,展现出巨大潜力。然而,现有方法大多关注药物分子结构或细胞系基因表达谱,对药物、靶点、细胞系等生物实体之间复杂的相互作用网络信息利用不足。基于网络(Network-Based)的方法虽然考虑了蛋白质关联等信息,但通常只关注直接关联,忽略了高阶拓扑信息和局部连接,且缺乏可解释性。
研究目标: 为了解决上述问题,本研究旨在开发一种新型的端到端深度学习模型,该模型能够有效整合药物和细胞线相关的多源生物医学信息,特别是其邻居节点信息,以更准确地预测药物组合的协同效应。具体而言,研究团队提出了一种名为KGANSynergy(知识图谱注意力网络)的模型,其核心是利用知识图谱(Knowledge Graph, KG)来组织异构数据,并通过多头部注意力(Multi-Head Attention)机制来区分不同邻居信息的重要性,从而学习更丰富的实体嵌入(Embedding)表示,最终用于预测药物组合在特定细胞系上的协同作用。
三、 研究详细工作流程
本研究的工作流程主要包括以下几个关键步骤:数据集准备与知识图谱构建、模型框架设计(包含知识图谱分层传播、知识图谱注意力层和预测层)、模型训练与评估,以及案例分析。
1. 数据集准备与知识图谱构建: 研究使用了两个公开的药物协同作用数据集来评估模型性能: * DrugCombDB: 一个大型数据集,包含来自高通量筛选和文献的69,436个药物组合,涉及764种药物和76个癌细胞系。处理后,包含17,404个协同(阳性)药物对和16,624个拮抗(阴性)药物对。 * Oncology-Screen: 一个较小规模的数据集,包含4,176个药物组合,涉及21种药物和29个癌细胞系。处理后,包含1,044个协同药物对和916个拮抗药物对。 协同作用的判定依据各自的协同评分(如ZIP值、Loewe值),并采用四分位数作为阈值进行分类。
为了构建知识图谱,研究整合了四类生物医学数据: * 药物-蛋白质关联: 来自DrugBank、BindingDB等数据库,包含15,051个关联。 * 细胞系-蛋白质关联: 来自癌症细胞系百科全书(CCLE)的基因表达数据,通过Z-score阈值化处理得到,包含749,551个关联。 * 蛋白质-蛋白质相互作用: 来自人类蛋白质-蛋白质相互作用组,包含217,160个相互作用。 * 细胞系-组织关联: 基于细胞系来源的组织类型信息。 将上述数据整合后,构建了一个包含多种实体(药物、细胞系、蛋白质、组织)和关系(如“药物-蛋白质相互作用”、“蛋白质-蛋白质相互作用”等)的异构知识图谱。图谱中的每个事实以三元组(头实体,关系,尾实体)的形式表示,例如(米康唑,DPI,P35228)表示药物米康唑与蛋白质P35228存在相互作用。
2. 模型框架设计: KGANSynergy模型的核心框架包含三个主要模块: * 知识图谱分层传播(KG Hierarchical Propagation): 此模块的目标是为目标药物或细胞系实体找到其在知识图谱中的多跳邻居节点集合。从实体本身(第0层)开始,递归地探索与其直接相连(第1层)、间接相连(第2层、第3层…)的所有实体。例如,药物米康唑的一阶邻居可能包括蛋白质P35228和Q12809;通过P35228,又可以找到其二阶邻居蛋白质P00352和细胞系TC32。通过设定传播深度L,模型可以为每个实体收集其L层内的所有邻居信息,从而捕获高阶关联。为了控制计算复杂度,为每个实体固定了邻居集合的大小,并构建了实体邻接矩阵和关系邻接矩阵。 * 知识图谱注意力层(KG Attention Layer): 这是模型的核心创新模块,用于学习实体的嵌入表示。它由两个子组件构成: * 多头部注意力嵌入传播(Multi-Head Attention Embedding Propagation): 对于知识图谱中的每个实体(如药物),其邻居节点的重要性并不相同。该组件采用基于神经网络的注意力机制,为每个(头实体,关系,尾实体)三元组计算一个注意力权重π(h, r, t)。这个权重通过一个两层的神经网络计算,输入是头实体嵌入和关系嵌入的拼接,经过ReLU和Sigmoid激活函数后,再通过Softmax函数在所有邻居间归一化。为了稳定学习过程并捕捉更多信息,模型采用了多头部注意力机制,即并行地执行多次独立的注意力计算,然后将结果通过“拼接”(Concat)或“平均”(Average)聚合器进行合并,得到该实体邻居集的聚合表示e_nh。 * 邻居信息聚合(Neighborhood Information Aggregation): 将上一步得到的邻居聚合表示e_nh与实体自身的当前层表示e_h进行融合,生成该实体新的嵌入表示。本研究采用了双向交互聚合器(Bi-Interaction Aggregator),它同时考虑了e_h + e_nh(相加)和e_h ⊙ e_nh(逐元素相乘)两种交互方式,再经过非线性变换,从而更有效地融合信息。 通过堆叠L层这样的知识图谱注意力层,每个实体的最终嵌入表示e_h^(L)能够融合其L层内所有邻居的信息。对于药物和细胞线,模型会保留从初始层(随机初始化)到第L层的所有嵌入表示,构成一个表示集合。 * 预测层(Prediction Layer): 为了充分利用不同层捕获的不同阶连接信息,模型将药物(或细胞线)在所有层的嵌入表示进行拼接,并通过一个非线性变换(Sigmoid)得到最终的药物表示向量agg_d和细胞线表示向量agg_k。对于一对药物(d_i, d_j)和一个细胞线k,使用最大池化(Max Pooling)操作来合并两个药物的表示,然后与细胞线表示进行逐元素相乘,得到预测的协同得分y_hat。模型的训练目标是最小化二元交叉熵损失函数,并加入L2正则化项以防止过拟合。
3. 模型训练、评估与案例分析: 研究采用分层嵌套交叉验证来评估模型性能,确保测试集中的药物对未在训练集中出现。评估指标包括受试者工作特征曲线下面积(AUC-ROC)、精确率-召回率曲线下面积(AUC-PR)和准确率(ACC)。此外,研究还进行了详细的参数敏感性分析(如嵌入维度、知识传播层数、注意力头数、聚合器类型)和消融实验(如移除注意力机制、移除多头部注意力、移除邻居实体信息、移除蛋白质-蛋白质和细胞系-组织信息),以验证模型各组成部分的有效性。最后,研究在Oncology-Screen数据集上进行了案例研究,预测了新的潜在协同药物组合,并通过文献检索和SynergxDB数据库的抑制热图对部分高评分预测结果进行了生物学验证。
四、 主要研究结果
模型性能优越: 在两个基准数据集上的实验结果表明,KGANSynergy模型在预测药物协同作用方面显著优于其他先进的和基线方法。在DrugCombDB数据集上,KGANSynergy的AUC-ROC达到了0.8951,AUC-PR达到了0.8921,准确率为0.8174;在Oncology-Screen数据集上,AUC-ROC为0.8911,AUC-PR为0.8983,准确率为0.8221。这些指标均高于对比方法,包括DeepWalk、图卷积网络(GCN)、DeepSynergy、KGN和GraphSynergy。这证明了结合知识图谱和多头部注意力机制能有效提升预测性能。
参数分析揭示最佳配置:
消融实验验证关键组件:
案例预测与生物学验证: 在Oncology-Screen数据集的案例研究中,KGANSynergy成功预测出多个在肺癌、卵巢癌、乳腺癌细胞系上具有潜在高协同性的新药物组合。例如,预测了在肺癌细胞系SKMES1上,拉帕替尼(Lapatinib)和伏立诺他(Zolinza)的组合具有协同作用,并通过SynergxDB的抑制热图得到了剂量依赖性协同效应的计算验证。此外,对预测的卵巢癌细胞系SKOV3上地塞米松(Dexamethasone)与5-氟尿嘧啶(5-FU)或长春瑞滨(Vinorelbine)的组合,研究通过文献检索找到了支持其协同作用潜在机制的生物学证据(如地塞米松通过降低NRF2增加活性氧使癌症干细胞对5-FU敏感)。这些案例表明KGANSynergy具有发现潜在有效药物组合的能力,其预测结果具有生物学合理性。
五、 研究结论与价值
本研究成功开发并验证了KGANSynergy模型,这是一种基于知识图谱注意力网络的、用于预测药物组合协同作用的新型深度学习框架。该模型通过知识图谱分层传播有效捕获药物和细胞线实体的多源、高阶邻居信息,并利用多头部注意力机制区分不同邻居的重要性,稳定了学习过程,增强了实体嵌入表示的丰富性和可解释性。
科学价值: 1. 方法学创新: 首次将知识图谱与多头部图注意力网络相结合,系统性地应用于药物协同预测任务,为利用异构生物网络数据进行药物发现提供了一种新的、强大的计算范式。 2. 性能提升: 在多个基准数据集上证明了其优于现有方法的预测精度,为解决高通量药物组合筛选的挑战提供了更有效的计算工具。 3. 可解释性增强: 注意力权重机制使得模型能够指示哪些邻居实体(如特定蛋白质或通路)对预测贡献更大,增加了模型决策过程的透明度,有助于生成生物学假设。
应用价值: 1. 加速药物研发: 能够从海量可能的药物-细胞线组合中快速、低成本地筛选出高潜力的协同组合,缩小实验验证范围,从而显著降低药物联合疗法开发的成本和时间。 2. 指导实验设计: 预测结果和注意力权重可以为生物学家设计湿实验(Wet-lab Experiments)提供优先方向和机制线索。 3. 药物重定位(Drug Repositioning): 通过发现现有药物新的协同用途,为老药新用开辟途径。
六、 研究亮点
七、 其他有价值的内容
论文明确指出,当前模型主要整合了蛋白质关联和组织信息。作者展望未来工作可以融合其他类型的多组学数据(如甲基化、拷贝数变异、通路活性等),以进一步丰富知识图谱,提升模型的表征能力和可解释性。这为后续研究指明了方向。此外,研究代码和数据集已公开在GitHub上,促进了该领域的可重复研究和进一步开发。