分享自:

基于专家知识增强图神经网络的药物重定位

期刊:IEEE Journal of Biomedical and Health InformaticsDOI:10.1109/JBHI.2025.3633239

基于专家知识增强图神经网络的药物重定位:DREKGNN框架研究报告

一、 研究团队与发表信息

本研究的主要作者包括吴振鹏(Zhenpeng Wu)、严成(Cheng Yan)、陈佳敏(Jiamin Chen)、肖思洋(Siyang Xiao)和高建良(Jianliang Gao)。作者单位分别来自中国的中南大学计算机科学与工程学院(Zhenpeng Wu, Siyang Xiao, Jianliang Gao)、湖南中医药大学信息科学与工程学院(Cheng Yan)以及贵州师范大学大数据与计算机科学学院(Jiamin Chen)。该研究已发表于《IEEE Journal of Biomedical and Health Informatics》期刊。根据文末的脚注信息,该论文已被该期刊接受发表,是作者的预印版本,最终内容可能有所调整,引用信息DOI为10.1109/JBHI.2025.3633239。

二、 学术背景与研究目标

本研究属于生物医学信息学与人工智能交叉领域,具体聚焦于计算药物重定位(Drug Repositioning)这一关键问题。药物研发传统上耗时漫长、成本高昂且失败率高。药物重定位旨在为已有药物寻找新的治疗适应症,因其能显著缩短研发周期、降低成本和风险而备受关注。计算药物重定位方法通过大规模数据挖掘来预测潜在的药物-疾病关联,是加速药物发现的重要工具。

近年来,图神经网络(Graph Neural Networks, GNNs)因其能够有效建模药物-疾病异构图中的复杂拓扑模式而受到广泛关注。然而,现有的GNN方法在药物重定位任务中存在一个关键局限:它们通常通过随机初始化来生成节点(药物和疾病)的嵌入表示,而不是融入来自权威数据库(如DrugBank、OMIM)的、涉及生物学机制的高质量专家知识。这限制了模型生成与专家知识对齐、具有可解释性的节点嵌入的能力。尽管大型语言模型(Large Language Models, LLMs)在理解和处理文本方面展现出强大能力,可作为连接专家知识与GNN的语义桥梁,但直接将LLM生成的节点嵌入用于预测任务可能引入噪声(如与任务无关的语义噪声、忽略图结构关系的噪声)。

为此,本研究团队提出了一种名为DREKGNN(Drug Repositioning based on Expert Knowledge augmented Graph Neural Network)的新型框架。其核心目标是:通过将高质量的专家知识整合到GNN中,增强药物重定位预测的可解释性和性能。具体而言,研究旨在:1)利用LLM作为桥梁,将专家知识文本转化为具有语义信息的节点嵌入;2)设计有效的策略来缓解LLM嵌入在服务下游预测任务时可能引入的噪声;3)构建一个高效、鲁棒的模型,在标准基准数据集上超越现有最先进方法,并通过案例研究验证其实际预测能力。

三、 详细研究流程与方法

DREKGNN框架的完整工作流程主要包括四个核心步骤:药物-疾病图构建、基于专家知识的LLM节点嵌入生成、采用均值聚合策略的GNN模型训练与优化。

1. 药物-疾病异构图构建 首先,研究基于公开基准数据集(如Fdataset和Cdataset)构建异构图G = {V_r, V_d, E_rd, E_rr, E_dd, X_r, X_d}。其中,V_r和V_d分别代表药物和疾病节点集合。E_rd是基于已知药物-疾病关联构建的边集合(已知关联为1,否则为0)。E_rr(药物-药物边)和E_dd(疾病-疾病边)的构建则基于药物相似性矩阵和疾病相似性矩阵。为了聚焦于最显著的关联并控制计算复杂度,研究采用了“top-7过滤法”:对于每个节点,仅保留与其相似度最高的前7个邻居节点(排除自环),并将得到的边二值化。这一步骤为后续的GNN信息聚合提供了图结构基础。

2. 基于专家知识的LLM节点嵌入生成 这是本研究的创新关键步骤,旨在为每个药物和疾病节点生成富含语义的初始嵌入,而非随机初始化。 * 知识描述提取:为确保专家知识的准确性,DREKGNN直接从权威生物医学数据库提取知识描述,而非依赖LLM的提示模板生成,以避免LLM可能产生的“幻觉”问题。具体而言,从DrugBank数据库(v5.1.12)提取药物的“description”字段内容;从OMIM数据库提取疾病的描述文本,优先使用“text”键值,若无则依次尝试“description”、“clinical features”等键。若最终无描述,则填充为“no description available”。为防止信息泄露(即训练数据中直接包含待预测的关联),研究采用基于规则的过滤过程,将描述中明确提及治疗关系的疾病名或药物名掩码为[disease][drug]。最终得到药物和疾病的知识描述集合C_r和C_d。 * LLM推理与嵌入生成:将上述知识描述输入到LLM嵌入生成器中,将离散的语义空间映射到连续的特征空间。研究采用开源的LLaMA2-7B模型作为嵌入生成器。具体流程是:将每个药物/疾病的描述文本进行分词并截断或填充至最大长度512个令牌(token),通过LLaMA2模型获得令牌级嵌入(token-level embeddings),然后对所有这些令牌的嵌入向量进行均值池化(mean pooling),得到最终的节点级嵌入(node-level embeddings)X_r和X_d。这些嵌入的维度为4096(即LLaMA2的隐藏层维度)。生成的嵌入被缓存,供后续GNN训练重复使用,避免了每次训练都需重新生成的计算开销。

3. 采用均值聚合策略的GNN模型 此步骤旨在利用图结构信息对LLM生成的节点嵌入进行精炼和增强,同时缓解其中可能存在的噪声。模型包含药物建模和疾病建模两个对称的部分。 * 药物建模:对于每个药物节点i,其最终嵌入e_ri由两部分信息聚合而成:异构交互信息(e^tr_i,来自与之关联的疾病邻居)和同构交互信息(e^mr_i,来自与之相似的其他药物邻居)。研究创新性地采用了均值聚合策略(Mean Aggregation Strategy)来聚合邻居信息。例如,异构嵌入e^tr_i的计算公式为:首先对药物i的所有关联疾病邻居的LLM嵌入取均值,然后通过一个权重矩阵W^tr_1和偏置b^tr_1进行线性变换,再与药物i自身的LLM嵌入x_ri经过另一个权重矩阵W^tr_2变换后的结果相加,最后通过SELU激活函数。同构嵌入e^mr_i的计算类似,是对相似药物邻居的LLM嵌入取均值后进行线性变换和激活。最终,e_ri = e^tr_i + e^mr_i。 * 疾病建模:与药物建模完全对称,每个疾病节点j的最终嵌入e_dj由其关联的药物邻居(异构信息e^td_j)和相似的疾病邻居(同构信息e^md_j)通过相同的均值聚合策略得到。 * 优化与预测:获得药物嵌入e_ri和疾病嵌入e_dj后,通过哈达玛积(Hadamard Product)进行融合,得到药物-疾病对的融合嵌入e^f_ij。随后,将融合嵌入输入一个多层感知机(MLP)来预测该药物-疾病对的关联概率得分ŷ_ij ∈ [0, 1]。模型使用二元交叉熵损失函数进行训练,目标是最小化所有药物-疾病对上的预测损失。

4. 实验设计与评估流程 研究采用10折交叉验证来全面评估模型性能。使用的评估指标包括:受试者工作特征曲线下面积(AUROC)、精确率-召回率曲线下面积(AUPR),以及用于衡量排序质量的Recall@K和NDCG@K。研究在两个广泛使用的基准数据集(Fdataset和Cdataset)上进行了大量实验,并与九种最先进的基线方法进行了比较,这些基线涵盖了矩阵分解/补全方法(如SCMFDD、SCPMF、DNMF-DDA)和图神经网络方法(如DRWBNCF、DRAGNN、DRMAHGC、AdaDR、HNRD、LBMFF)。此外,研究还进行了一系列深入分析,包括:使用来自Offsides数据库的生物学信息负样本进行评估、对新疾病的候选药物预测能力测试、在不同注释水平(低/中/高关联度药物)上的性能评估、跨数据集(Fdataset/Cdataset -> CTDdataset)泛化能力分析、以及全面的消融研究(验证专家知识、聚合策略、融合方法、令牌长度、语言模型选择等组件的有效性)和超参数敏感性分析。最后,通过一个针对帕金森病的案例研究,展示了DREKGNN在发现潜在治疗药物方面的实际应用价值,并利用t-SNE可视化技术对模型生成的嵌入进行了解释性分析。

四、 主要研究结果与分析

实验结果表明,DREKGNN在多个方面均表现出卓越的性能。

1. 与基线方法的性能对比 在两个基准数据集(Fdataset和Cdataset)上,DREKGNN在AUROC和AUPR两个核心指标上均显著优于所有九种基线方法。例如,在Fdataset上,DREKGNN的AUROC达到了0.98461,AUPR达到了0.72474;在Cdataset上,AUROC为0.98410,AUPR为0.81658。值得注意的是,尽管一些基线方法(如DRMAHGC、AdaDR)的AUROC值已经很高(>0.96),DREKGNN仍能取得进一步的提升。更重要的是,DREKGNN在AUPR指标上的提升尤为显著,这表明该模型在准确识别关键正样本(即真实的药物-疾病关联)方面具有更强能力。统计显著性检验(Wilcoxon符号秩检验和配对t检验)证实,DREKGNN相对于最强基线之一的DRAGNN,其性能提升是高度显著的(p值远小于0.05)。在Recall@K和NDCG@K指标上,DREKGNN也展现出更好的排序质量。

2. 消融研究与机制分析 消融研究结果有力地验证了DREKGNN各个组件的必要性: * 专家知识的作用:当移除药物专家知识(w/o drugK)、疾病专家知识(w/o disK)或全部专家知识(w/o know)时,模型性能均出现明显下降,证明了从权威数据库提取的专家知识对于生成高质量、可解释的节点嵌入至关重要。 * 均值聚合策略的有效性:在比较不同聚合策略(均值、GCN、注意力)对噪声的鲁棒性时,研究发现,当向LLM嵌入中注入高斯噪声时,均值聚合策略的性能下降最为缓慢,表现最稳定。理论分析指出,注意力聚合可能因权重分布稀疏而将噪声方差放大至均值聚合的K倍(K为邻居数),导致其在噪声环境下性能急剧下降。这证实了在LLM嵌入服务预测任务时,采用简单的均值聚合来缓解噪声是一个有效且鲁棒的设计选择。 * 其他组件分析:实验表明,直接求和(Direct Summation)在融合异构和同构信息方面优于加权求和(Weighted Summation)和MLP融合(MLP Fusion),因其能更稳定地结合互补信息而不引入过多非线性扭曲。在令牌长度分析中,512或1024个令牌通常能取得最佳性能平衡。在不同LLM的对比中,LLaMA2的表现优于通用BERT,与生物医学预训练模型BioGPT相当,但略逊于BioBERT。考虑到BioBERT可能因领域预训练存在信息泄露风险,LLaMA2被视为一个合理且性能强大的选择。

3. 深入分析与案例验证 * 生物学信息负样本评估:当使用Offsides数据库提供的、更有生物学意义的负样本(药物-疾病副作用关系)替代随机未知对作为负样本时,DREKGNN和基线模型DRAGNN的性能均有提升,且DREKGNN的提升幅度更大(尤其在AUPR上)。这表明引入更可靠的负样本有助于模型学习更清晰的分类边界,而DREKGNN能更有效地利用这种信息。 * 对新疾病的预测能力:在“为新疾病预测候选药物”的实验中,DREKGNN在Cdataset上取得了最佳的AUROC(0.80764)和AUPR(0.17610),显示了其良好的泛化与应用潜力。 * 跨注释水平与跨数据集泛化:DREKGNN在不同关联数量的药物组别(低、中、高)上均表现稳定且优异,表明其不偏向于高度注释的药物,能利用专家知识弥补稀疏关联的不足。在跨数据集泛化实验中,DREKGNN在未经任何微调的情况下,在外部CTDdataset上取得了远超基线DRAGNN的性能(例如,从Fdataset训练时,AUPR从0.06769提升至0.14106),证明了其学习到的表征具有良好的泛化能力。 * 案例研究:以帕金森病为例,DREKGNN预测出的前10个候选药物中,有9个(如文拉法辛、多巴胺、纳曲酮、氯氮平等)得到了DrugBank、CTD、ClinicalTrials等权威数据库或临床试验的证据支持,验证率高达90%。t-SNE可视化进一步显示,在DREKGNN生成的嵌入空间中,帕金森病与这些已验证的候选药物嵌入距离更近,而与未验证的候选药物距离较远;相比之下,随机初始化的嵌入则呈现杂乱分布。这直观证明了DREKGNN能够生成与生物学语义对齐的、可解释的节点表示。

五、 研究结论与价值意义

本研究成功提出了DREKGNN,一个基于专家知识增强图神经网络的药物重定位新框架。该框架的核心贡献在于创造性地利用大型语言模型作为语义桥梁,将从权威生物医学数据库提取的专家知识转化为富含语义的节点嵌入,进而通过设计鲁棒的均值聚合策略在图神经网络中进行信息整合与噪声缓解,最终实现了对药物-疾病关联更准确、更可解释的预测。

该研究的科学价值在于:1)方法学创新:首次系统地将LLM的语义理解能力与GNN的结构建模能力相结合,用于解决药物重定位中的节点表示问题,为解决GNN模型缺乏领域知识注入的局限性提供了新思路。2)性能提升:在多个基准测试和严格评估设定下,DREKGNN均显著超越了现有最先进方法,为计算药物重定位领域设立了新的性能标杆。3)可解释性增强:通过融合专家知识,模型生成的节点嵌入具有了生物学语义基础,t-SNE可视化等分析手段增强了模型预测结果的可信度和可解释性。

其应用价值体现在:DREKGNN能够高效、准确地从大规模生物医学数据中挖掘潜在的药物-疾病关联,为加速药物发现、降低研发成本提供了强大的计算工具。案例研究证实了其预测结果具有较高的生物学合理性,能够为实验科学家提供有价值的候选药物线索,推动后续的体外、体内实验验证。

六、 研究亮点

  1. 新颖的框架设计:提出了“LLM作为语义桥梁,GNN作为语义对齐与结构增强器”的分工协作范式,巧妙地将非结构化的专家知识文本与结构化的图数据相结合。
  2. 高质量的专家知识来源:坚持从DrugBank、OMIM等权威数据库直接提取知识描述,避免了LLM生成内容可能存在的“幻觉”问题,确保了知识输入的准确性。
  3. 鲁棒的均值聚合策略:通过理论分析和实验验证,证明了在整合可能包含噪声的LLM嵌入时,简单的均值聚合策略比更复杂的GCN或注意力聚合更具鲁棒性,为类似任务提供了重要的设计启示。
  4. 全面深入的实验验证:不仅进行了标准的性能对比,还涵盖了生物学负样本评估、对新疾病的预测、跨注释水平分析、跨数据集泛化测试、详尽的消融研究、超参数敏感性分析、案例研究和可视化解释,构成了一个非常完整和令人信服的证据链。
  5. 优秀的实用性与泛化性:模型在预测新疾病候选药物和跨数据集任务上表现良好,代码、超参数和已处理数据集已开源,促进了研究的可重复性和进一步发展。

七、 其他有价值内容

研究也坦诚地讨论了DREKGNN的局限性并展望了未来方向:1)预测结果仍需严格的实验和临床验证才能转化为实际应用;2)需要机制来动态更新模型以适应生物医学知识的快速演进;3)若整合患者数据需考虑伦理和隐私约束;4)未来可探索引入图对比学习(Graph Contrastive Learning)以进一步缓解噪声,或整合多组学数据、采用近似贝叶斯学习等更先进的图学习技术来提升性能与可解释性。这些讨论为后续研究指明了有价值的改进路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com