分享自:

使用BiopathNet增强生物医学知识图谱中的链接预测

期刊:Nature Biomedical EngineeringDOI:10.1038/s41551-025-01598-z

学术研究报告:基于路径嵌入的生物医学知识图谱链接预测新框架——BioPathNet

一、 研究作者与发表信息 本研究的主要作者包括Emy Yue Hu(德国慕尼黑赫姆霍兹中心计算健康中心、慕尼黑工业大学生命科学学院)、Svitlana Oleshko(赫姆霍兹中心计算健康中心、慕尼黑工业大学计算、信息与技术学院)、Samuele Firmani(赫姆霍兹中心计算健康中心、慕尼黑工业大学计算、信息与技术学院)及Hui Cheng(慕尼黑工业大学计算、信息与技术学院)等共计11位作者,由Sophie Xhonneux(蒙特利尔大学、Mila – Quebec AI研究所)和Annalisa Marsico(赫姆霍兹中心计算健康中心)共同指导。论文题为“Enhancing link prediction in biomedical knowledge graphs with BioPathNet”,已于2025年12月在线发表在《自然-生物医学工程》(*Nature Biomedical Engineering*)期刊上。

二、 学术背景 研究领域: 本研究属于生物信息学、系统生物学与人工智能的交叉领域,聚焦于生物医学知识图谱的链接预测。 研究动因与背景知识: 生物实体(如基因、蛋白质、疾病、药物)之间以复杂网络的形式相互作用。理解这些相互作用是系统生物学的核心,对于推进生物医学研究(如药物发现、疾病机制解析)至关重要。生物网络通常表示为图,其中节点代表生物实体,边代表它们之间的关联。尽管高通量实验产生了大量数据,但生物网络仍远未完整。由于湿实验成本高昂且耗时,计算链接预测方法变得尤为重要。LP的目标是基于已有的网络拓扑结构,推断未连接节点之间潜在的关联。 传统LP方法,如基于节点相似性的图分析指标,以及后来的表示学习(如知识图谱嵌入)和图神经网络,虽取得一定成功,但在处理生物医学KG时面临独特挑战:生物医学KG通常规模庞大、异构(多节点和关系类型)、稀疏、包含实验误差导致的噪声关系,并存在研究偏差(例如,被充分研究的疾病相关基因连接度更高)。现有方法,特别是节点嵌入框架,通常在捕获实体间复杂的多跳路径关系方面能力有限,且可解释性不足。近年来,基于路径表示学习的方法,如神经贝尔曼-福特网络,为KG补全提供了新思路,它通过考虑节点对之间的所有路径来学习成对表示,有望提高预测精度和可解释性。 研究目标: 针对上述挑战,研究团队旨在开发一个专门针对生物医学KG优化的链接预测框架。具体目标是:1)提出一个基于路径表示学习的图神经网络框架,以更好地捕捉生物医学KG中的复杂关系;2)通过引入背景调控图等设计,增强模型在大型、异构、稀疏生物医学KG上的性能、可扩展性和可解释性;3)在多个不同的生物医学LP任务上验证其优越性;4)利用模型的可解释性,生成具有生物学洞察力的预测路径,辅助假说生成。

三、 详细工作流程 本研究的工作流程主要包括BioPathNet框架的构建与优化、在四个不同生物医学LP任务上的评估、与多种基线模型的比较,以及利用模型可解释性进行案例分析和生物学验证。

1. BioPathNet模型构建与核心设计 BioPathNet建立在NBFNet框架之上,核心思想是路径表示学习。与节点嵌入方法不同,BioPathNet学习的是节点对的表示,这些表示基于连接它们的路径上的关系信息总和。其核心算法通过广义贝尔曼-福特算法实现,并利用消息传递图神经网络进行高效计算。在此基础之上,研究者引入了三项关键设计选择以适配生物医学KG的特性: * 背景调控图: 为了丰富消息传递过程中的实体连接性,BioPathNet在主要任务图谱之外,引入了一个辅助图谱BRG。BRG仅用于消息传递步骤,为节点间提供额外的、生物学上相关的连接路径,但不参与损失计算。这一设计显著改善了信息流,尤其是在主图谱稀疏或存在零样本预测任务时,同时保证了模型在大规模KG上的可扩展性。 * 节点类型感知的负采样: 为了解决生物医学KG的异构性问题并提高决策边界的准确性,研究团队设计了一种严格的负采样策略。对于每个正样本三元组(头实体,关系,尾实体),负样本通过替换尾实体生成,但仅限于与正样本尾实体具有相同节点类型的候选实体。这确保了负采样在生物学上具有意义,避免了跨类型的不合理组合。 * 基于结构感知的负采样整合: 进一步,研究者将SANS策略与NTA负采样结合。SANS根据正样本三元组周围的局部图密度(而非均匀随机)来采样负样本,使得模型在学习时需要区分更接近、更相似的负样本,从而进一步提升了学习效果。

2. 生物医学链接预测任务评估 研究团队在四个具有不同网络特性、关系类型和节点类型的生物医学KG上评估了BioPathNet,涵盖了从基因功能到药物再用途的广泛任务: * 任务一:基因功能预测(Gene Function Prediction) * 研究对象: 主图谱G1包含约32,000条从ConsensusPathDB提取的基因与KEGG通路术语之间的“功能属于”关系边。BRG(G2)采用Pathway Commons数据库,包含约180万条边和13种关系类型,如蛋白质-蛋白质相互作用。 * 处理与测试: 模型在G1的基因-通路三元组上进行训练、验证和测试。评估了仅使用G1以及结合G2进行消息传递两种情况。 * 任务二:零样本疾病-药物适应症预测(Drug Repurposing) * 研究对象: 使用PrimeKG知识图谱。这是一个综合性生物医学KG,整合了20个资源,包含17,080种疾病和约400万种关系。任务旨在预测特定疾病(其所有已知治疗在训练集中均被移除)的新药物适应症,属于零样本学习。 * 处理与测试: 遵循TxGNN的方法,将任务划分为五个疾病领域(肾上腺、贫血、心血管、细胞增殖、心理健康)。模型在目标疾病领域以外的所有疾病-药物关系(适应症、禁忌症)上训练,而PrimeKG中其余所有关系(约570万条边,30种关系类型)作为BRG用于消息传递。评估模型预测已知适应症/禁忌症的能力。 * 任务三:合成致死基因对预测(Synthetic Lethality Prediction) * 研究对象: 主图谱G1来自SynLethDB v.2.0,包含约20,000条合成致死基因对边。BRG(G2)基于KR4SL构建,包含额外的SL关系以及基因与Gene Ontology术语(分子功能、细胞过程、细胞组分)的关联,总计约38万条边和48种关系类型。 * 处理与测试: 分别在传递式(训练和测试在同一图上)和归纳式(训练和测试在不同图上)两种设置下进行评估。还测试了使用不同置信度阈值(如>0.3)过滤低质量SL边对性能的影响。 * 任务四:lncRNA-靶基因调控互作预测(lncRNA-Target Interaction Prediction) * 研究对象: 主图谱G1基于LncTarD 2.0数据库构建,包含约6,000条经过实验验证的lncRNA-靶基因调控互作边,涉及七种调控机制。BRG(G2)同样使用Pathway Commons的PPI部分,包含约110万条边和7种关系类型。 * 处理与测试: 模型在lncRNA-靶基因三元组上训练,负采样遵循NTA策略。这是最具挑战性的任务之一,源于图谱稀疏性和调控关系的不确定性。

在所有任务中,模型性能使用标准指标进行评估:平均倒数排名(衡量正确实体在排名中的位置)和Hits@K(正确实体出现在前K个预测中的比例)。

3. 比较基线模型 研究将BioPathNet与两大类基线模型进行了全面比较: * 通用LP方法: 包括关系图卷积网络、异构图变换器、关系感知图注意力网络以及原始的NBFNet。为公平起见,尽可能对这些基线应用了相同的NTA负采样策略,并在可计算的情况下进行了超参数调优。 * 任务特异性方法: 针对每个LP任务,选择了当前最先进的专用模型进行对比。例如,基因功能预测对比BIONIC;药物再用途预测对比DreamWalk和TxGNN;合成致死预测对比KR4SL;lncRNA-靶基因预测对比DeepLGP和BIONIC的变体。

4. 可解释性分析与案例研究 利用NBFNet/BioPathNet框架固有的可解释性优势,研究者通过计算预测对连接头尾节点路径的梯度,提取并可视化对预测贡献最大的前K条路径。这允许研究者: * 全局分析: 汇总跨多个预测和随机种子的重要解释路径,分析哪些节点类型和具体节点在驱动预测中最为关键,并进行富集分析以验证其生物学合理性。 * 案例研究: 针对特定预测进行深入分析。例如,在药物再用途任务中,详细解读了BioPathNet为急性淋巴细胞白血病预测新药物(如博舒替尼)的路径,以及为阿尔茨海默病预测潜在治疗药物(如尼古丁、布普品、依维莫司)的路径,并将这些预测与现有文献和临床试验证据进行关联验证。

四、 主要结果 1. BioPathNet在各项任务中均表现优异: 如表1所示,BioPathNet在所有四个LP任务上的MRR均显著优于随机预测。在基因功能预测上MRR达到0.547;在多个疾病领域的药物适应症预测中,MRR最高可达0.83(肾上腺疾病),在最具挑战性的心血管疾病领域也达到0.23;在合成致死预测中,过滤低置信度边后MRR提升至0.359;在极具挑战的lncRNA-靶基因预测中,MRR为0.189。这证明了其处理多样化生物医学LP任务的强大能力和鲁棒性。

2. 关键设计选择的有效性得到验证: * 节点类型感知负采样与SANS: 消融实验表明,NTA负采样在所有任务上均带来了性能提升(MRR提升1.6%至13.7%不等)。结合SANS后,在多数任务上能带来进一步的增益,表明考虑局部图结构有助于改善决策边界。 * 背景调控图: BRG的引入对性能提升至关重要。在基因功能、合成致死和lncRNA预测任务中,使用BRG进行消息传递带来了显著的性能提升(MRR提升1.5%至84%)。在零样本药物再用途任务中,BRG是模型能够进行有效消息传递和预测的基础,移除BRG会导致性能崩溃。 * 扰动实验揭示BRG特性: 通过对BRG添加随机边、删除随机边、删除高频关系或高度数节点等扰动实验,发现:(a)模型对添加随机噪声具有一定鲁棒性;(b)删除边或高度数节点会导致性能大幅下降,表明图连通性对性能至关重要;(c)不同关系类型对性能贡献不同,某些关键关系(如PPI、化学物质影响、疾病表型)的移除影响更大,但整体上图谱存在冗余性。

3. BioPathNet在与基线模型的比较中表现领先或相当: * 对比通用LP方法: 在基因功能预测上,BioPathNet优于R-GCN和RAGAT,与HGT性能接近但略优。在药物再用途任务上,BioPathNet显著优于R-GCN和HGT,而RAGAT和NBFNet由于计算资源限制无法在该大规模图谱上运行。在合成致死和lncRNA预测上,BioPathNet与NBFNet性能相当,并优于其他基线。更重要的是,BioPathNet在保持与NBFNet相近性能的同时,通过BRG设计实现了更高的可扩展性,使其能够处理NBFNet无法胜任的大规模药物再用途任务。 * 对比任务特异性方法: BioPathNet在绝大多数任务和指标上表现优于或匹配当前最先进的专用模型。例如,在基因功能预测上全面优于BIONIC;在药物再用途(适应症预测)上,其AUPRC在五个疾病领域中有四个超过TxGNN;在合成致死预测上,其MRR在传递式和归纳式设置下均高于KR4SL;在lncRNA预测上,其在交集测试集上的性能优于DeepLGP。

4. 可解释性路径提供了有价值的生物学洞见: * 全局分析: 对重要解释路径中频繁出现的节点类型和具体节点进行分析,发现其与预测任务高度一致。例如,在药物再用途中,“疾病”和“药物”节点类型占主导;在合成致死中,“基因”节点类型是主要驱动力。富集分析显示,这些关键节点显著富集于与任务相关的疾病术语和信号通路,支持了模型预测的生物学合理性。 * 案例研究验证: * 急性淋巴细胞白血病: BioPathNet成功将已知的21种适应症药物中的大部分排在前列,并对已知禁忌症排名第一。其对新药物“博舒替尼”的高排名,通过解释路径揭示其与BCR-ABL1阳性白血病及相关基因(AICDA, DUX4)的联系,而该药物正处于ALL临床试验中。 * 阿尔茨海默病: 在零样本预测中,BioPathNet成功找回了PrimeKG中已知的多数AD治疗药物(包括4种FDA批准的药物)。其新预测的药物中,尼古丁布普品已进入AD相关临床试验;依维莫司作为mTOR抑制剂,其作用机制与AD中mTOR通路过度活跃的理论相符。解释路径将尼古丁和布普品的预测与脑源性神经营养因子联系起来,而这正是这两种药物已知的作用靶点之一。 * 其他任务案例: 在基因功能、合成致死和lncRNA预测的案例中,解释路径同样揭示了符合已知生物学知识的调控网络和共享功能模块,例如通过核心生物钟基因解释CRY1与昼夜节律通路的关系,通过共享DNA修复过程解释POLB与BRCA1的合成致死关系。

五、 结论与意义 本研究成功开发并验证了BioPathNet,这是一个专为生物医学知识图谱链接预测设计的、基于路径表示学习的图神经网络框架。 科学价值与应用价值: 1. 方法论贡献: BioPathNet通过引入背景调控图和节点类型感知负采样等关键设计,有效解决了生物医学KG存在的异构性、稀疏性、噪声和规模挑战,显著提升了路径表示学习框架在此领域的性能、可扩展性和实用性。 2. 技术性能优越: 在涵盖基因功能注释、零样本药物再用途、合成致死预测和lncRNA-靶基因互作预测等多个重要生物医学LP任务上,BioPathNet表现出一致且优异的性能,超越或匹配了一系列通用及任务特异性基线模型。 3. 可解释性与生物学洞见: 框架固有的可解释性是其核心优势。它不仅能够做出预测,还能提供支持这些预测的潜在生物学路径。这使得研究人员能够“追溯”模型的决策过程,验证预测的生物学合理性,并生成可供实验验证的新假说,极大地增强了计算模型在生物医学发现中的可信度和实用性。 4. 应用潜力: BioPathNet为加速生物医学研究提供了强大的计算工具。在药物发现方面,它可以高效地提出新的药物适应症候选(如为ALL和AD预测的药物);在基础生物学方面,它可以帮助预测未知的基因功能、合成致死对和非编码RNA的调控靶点,从而指导后续的实验设计。

六、 研究亮点 1. 针对性创新: 本研究并非简单应用现有模型,而是针对生物医学KG的独特性(大规模、异构、稀疏、含噪)对NBFNet框架进行了三项关键改进,形成了专门化的BioPathNet。 2. 全面且严格的评估: 在四个性质迥异的生物医学LP任务上进行了系统评估,涵盖了从相对简单的到极具挑战性的零样本预测场景,充分证明了模型的通用性和鲁棒性。 3. 性能与可解释性并重: 在追求预测性能最优的同时,高度重视模型的可解释性,并将其作为核心价值进行深入分析和案例展示,体现了面向生物学家需求的设计理念。 4. 深入的分析与验证: 不仅报告了性能指标,还通过详细的消融实验、BRG扰动分析、与广泛基线的比较(包括计算效率分析)以及基于文献的案例验证,为模型的有效性和优势提供了坚实、多层次的支持。 5. 成功的生物学发现: 案例研究表明,BioPathNet的预测能够与已知的生物学知识和正在进行的临床试验相互印证,展示了其从复杂数据中提取新颖、合理生物学假说的强大能力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com