分享自:

基于知识图谱驱动机器学习的生物相互作用网络发现框架BIND

期刊:journal of translational medicineDOI:10.1186/s12967-025-06789-5

关于生物相互作用网络发现平台BIND的学术研究报告

一、 研究作者、机构与发表信息 本研究由Naafey Aamer(德国莱茵兰-普法尔茨凯泽斯劳滕工业大学计算机科学系,德国人工智能研究中心),Muhammad Nabeel Asim(德国人工智能研究中心,IntelligentX GmbH),Aamer Iqbal Bhatti(沙特阿拉伯国王法赫德石油与矿产大学控制与仪器工程系)以及Andreas Dengel(德国莱茵兰-普法尔茨凯泽斯劳滕工业大学,德国人工智能研究中心)共同完成。该研究成果以题为《BIND: Large‑scale biological interaction network discovery through knowledge graph‑driven machine learning》的研究论文形式,于2025年发表在《Journal of Translational Medicine》期刊第23卷第856期上。

二、 学术背景与研究目标 本研究属于生物信息学与计算生物学交叉领域,聚焦于利用人工智能(AI)和知识图谱(Knowledge Graph)技术预测生物实体间的复杂相互作用网络。

研究背景: 生物系统(从生物分子到宏观组织)的功能源于其内部实体间复杂的相互作用网络。理解这些网络对于揭示疾病机制和开发治疗干预手段至关重要。传统的“湿实验”方法识别这些相互作用成本高昂、耗时且易出错。虽然当前已有基于AI的相互作用预测工具,但它们通常“各自为战”,仅专注于单一任务(如药物-靶点相互作用或疾病关联预测),忽略了不同类型生物相互作用之间相互影响的宏观图景。目前,缺乏一个统一的平台供生物学家全面预测和分析多种类型的生物关系,这限制了我们发现新治疗应用和充分理解互连生物机制的能力。

研究目标: 针对上述局限性,本研究旨在开发一个统一的、基于最先进预测流程的平台,能够准确预测不同生物实体间的多种相互作用类型。具体目标是构建一个名为BIND(Biological Interaction Network Discovery,生物相互作用网络发现)的综合框架和网络应用程序,通过大规模实验寻找针对30种不同生物关系类型的最佳预测模型组合,为生物学家提供一个一站式预测和发现生物相互作用的工具。

三、 详细研究流程 本研究采用了一个系统性的三阶段工作流程,以应对大规模生物知识图谱中固有的类别不平衡和异质性挑战。研究核心基于一个名为PrimeKG的大型基准数据集,该数据集整合了20个不同来源的数据,包含129,375个节点(涵盖药物、疾病、基因/蛋白质等10种类型)和约810万条双向关系(涉及30种明确的关系类型)。

第一阶段:知识图谱嵌入模型(KGEMs)的预训练与评估 * 研究内容与对象: 研究者首先在完整的PrimeKG训练集(包含所有30种相互作用类型,共约567.5万条三元组)上,训练了11种不同的可分解知识图谱嵌入模型。这些模型属于四大类:基于翻译的模型(如TransE、PairRE、TripleRE)、基于旋转的模型(如RotatE、QuatE)、语义匹配模型(如DistMult、ComplEx、SimplE、HAKE)以及混合模型(如DualE、HolE)。选择可分解模型是出于其计算效率高、可解释性强,且在处理大规模生物医学知识图谱时已被证明具有竞争力的性能。 * 处理方法与实验: 训练过程采用交叉熵损失函数,并利用Optuna进行超参数优化,搜索范围包括学习率、批次大小、嵌入维度等。采用提前停止策略(耐心值为5个周期),在验证集(约80.8万条三元组)上监控平均倒数排名(MRR)指标。训练过程进行了GPU友好的优化,包括分块处理以节省内存、自动混合精度计算和梯度裁剪。 * 数据分析流程: 预训练完成后,使用独立的测试集(约161.7万条三元组)评估每个模型在30种关系类型上的性能。评估指标包括平均倒数排名(MRR)和Hits@K(K=1,3,5,10,50),以衡量模型在嵌入空间中为正确实体排序的能力。此阶段的目标是分析各模型在不同关系类型上的表现,并为下一阶段筛选出每种关系类型上表现最佳的5个模型。

第二阶段:针对特定关系的嵌入模型微调 * 研究内容与对象: 为了缓解第一阶段中由于关系分布极度不平衡(例如,“解剖结构-蛋白质(存在)”和“药物-药物”两种关系占数据总量的70%以上)导致模型可能偏向于预测主导关系类型的问题,研究者对第一阶段筛选出的每种关系类型对应的Top 5模型进行了关系特异性微调。 * 处理方法与实验: 对于每一种关系类型,研究者使用其对应的Top 5预训练模型,分别加载预训练参数,然后仅使用该特定关系类型的训练数据子集进行微调。例如,针对仅有90条关系的“暴露-分子功能”类型,会训练一个专门的模型,使其完全不受其他数百万条关系数据的影响。这相当于为30种关系类型中的每一种都创建了5个专门的“专家”模型,共计150个微调模型。 * 数据分析流程: 微调后,再次评估这些专门模型在其对应关系类型上的MRR和Hits@K性能,并与第一阶段预训练模型的性能进行对比,量化关系特异性微调带来的性能提升。

第三阶段:构建并评估预测性管道(预测模型) * 研究内容与对象: 此阶段将微调后得到的实体嵌入向量与下游机器学习分类器结合,构建端到端的生物相互作用预测管道。研究采用了7种不同的分类器,包括逻辑回归、K近邻、支持向量机(SVM)、随机森林、XGBoost、决策树和多层感知机(MLP)。 * 处理方法与实验: 由于生物知识图谱通常只包含正例(已知关系),为了训练二元分类器,研究者为每种关系类型生成了平衡的负样本。具体做法是,为训练集中的每个正例关系,随机配对两个实际上不相关的生物实体作为负例,确保正负样本比例为1:1。接着,对于30种关系类型中的每一种,使用其第二阶段得到的5种最佳嵌入模型产生的嵌入向量,分别训练上述7种分类器。这样就构建了总共1,050个(30关系 × 5嵌入模型 × 7分类器)独特的预测管道。 * 数据分析流程: 每个预测管道都在其对应的关系类型的平衡测试集上进行评估。评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)。通过大规模的超参数优化(使用Optuna),为每个管道寻找最佳配置。最终,为每种关系类型确定一个最优的“嵌入模型+分类器”组合。

四、 主要研究结果 1. 知识图谱嵌入模型性能分析结果: 在第一阶段的评估中,HolE、DistMult、PairRE、TripleRE和DualE这五种模型在PrimeKG数据集上表现最为出色, consistently在所有评估指标上领先。研究表明,架构相对简单的模型(如DistMult、PairRE)能够有效捕捉生物相互作用的本质,其性能常常优于更复杂的模型(如RotatE、HAKE)。分析指出,成功的模型关键在于处理关系不平衡、双向性和不同基数(cardinality)的能力,而非复杂的几何变换。值得注意的是,数据集中频率最高的两种关系(解剖结构-蛋白质、药物-药物)的MRR得分最低,表明这些密集连接或复杂的多对多交互是最难有效学习的。

2. 关系特异性微调的影响: 第二阶段的微调显著提升了模型在特定关系上的性能,尤其是在结构复杂的相互作用上改善最为明显。例如,蛋白质-蛋白质相互作用的MRR相对提升了21.3%(PairRE)和26.9%(TripleRE)。疾病-疾病关系在所有模型上也显示出显著提升。这表明,针对特定关系的微调有助于模型更好地捕捉领域特定的交互模式。然而,像“解剖结构-蛋白质(存在)”这样的高频关系,尽管经过微调,其MRR得分(最高0.272)仍然相对较低,提示有效建模此类关系可能需要更根本的架构改进。

3. 相互作用预测性能结果: 通过组合微调后的嵌入模型与机器学习分类器,BIND框架在30种生物关系类型上实现了卓越的预测性能。最优的“嵌入模型+分类器”组合为每种关系类型带来了极高的F1分数(范围在0.85至0.99之间)。例如: * 药物-药物相互作用:使用DistMult嵌入+SVM分类器,F1分数达0.9810。 * 药物-效应(表型)相互作用:使用PairRE嵌入+SVM分类器,F1分数高达0.9940。 * 蛋白质-蛋白质相互作用:F1分数为0.9380。 * 疾病-蛋白质关联:F1分数为0.9819。 * 高频率的解剖结构-蛋白质(存在)关系:使用HolE嵌入+MLP分类器,F1分数为0.9646。

结果还显示,较小、更专业化的关系类型受益于不同的分类器架构。例如,通路-蛋白质预测使用PairRE嵌入+K近邻分类器取得了最佳性能(F1=0.9507),表明局部邻域结构对于通路相关预测特别有效。

4. BIND网络应用与案例研究: 基于上述最优预测管道,研究者开发了名为BIND的公开网络应用程序。该平台整合了针对每种关系类型的最佳预测模型,使用户能够实时查询和探索跨越多种生物关系的高置信度预测。 为验证BIND的实用性,研究者进行了药物-表型相互作用预测的案例研究。该关系在初期训练阶段表现不佳,因此作为保守测试案例具有说服力。研究利用BIND评估了23.4亿个潜在的新型相互作用对,并筛选出置信度高于70%的预测。结果显示,BIND成功“重新发现”了许多文献中已有记载但未包含在训练数据中的药物-表型关联(例如,普萘洛尔-喘息,置信度0.9998,归因于β-阻滞效应)。高置信度预测中大量存在文献支持的关联,验证了该方法的有效性,并暗示其他高置信度预测可能揭示了新的、生物学上合理的关联,值得通过湿实验进一步验证。

五、 研究结论与价值 本研究系统地评估了知识图谱嵌入方法在生成高质量生物实体嵌入方面的效能,并证明了一个三阶段训练方法(全局预训练、关系特异性微调、平衡二元分类)能够有效生成具备强大预测能力的嵌入向量。该方法成功地将具有挑战性的类别不平衡问题转化为一系列可管理的、平衡的二元分类任务。

科学价值: 1. 方法学贡献: 提出了一个处理大规模、高度不平衡生物知识图谱的通用框架,强调了关系特异性微调和平衡分类策略的重要性。 2. 模型洞察: 通过大规模实验揭示了在生物医学知识图谱场景下,相对简单的嵌入模型架构往往能取得与复杂模型相当甚至更好的性能,这对未来模型选择与设计具有指导意义。 3. 基准性能: 为PrimeKG数据集上的30种生物关系类型建立了强大的基准性能(F1分数0.85-0.99),为后续研究提供了对比标准。

应用价值: 1. 工具开发: 推出了BIND这一统一的网络应用平台,使生物学家能够在一个平台上同时预测和分析多种生物相互作用,打破了以往工具孤立运作的局限。 2. 加速发现: BIND能够从数十亿潜在关系中筛选出高置信度的新型相互作用,为湿实验验证提供了优先候选列表,有望加速生物标志物发现和疗法开发。 3. 促进转化医学: 案例研究证明了BIND在药物重定位、副作用预测等领域的潜在应用价值,有助于将计算预测转化为具有临床意义的发现。

六、 研究亮点 1. 大规模系统性评估: 研究涉及了11种KGEMs、7种分类器、30种关系类型,进行了总计1,050条预测管道的大规模实验,计算量超过1,000 GPU小时和15,000 CPU小时,评估全面且深入。 2. 创新的训练策略: 提出的“全局预训练 + 关系特异性微调 + 平衡分类”三阶段流程,是针对生物知识图谱中严重类别不平衡问题的有效解决方案。 3. 实用平台导向: 不仅停留在算法比较,更将最优成果集成到一个公开可用的网络应用程序(BIND)中,体现了从研究到工具的完整闭环。 4. 强调简单模型的有效性: 研究发现并论证了在生物相互作用预测任务中,简单模型(如DistMult, PairRE)常优于复杂模型,这对资源有限的研究者具有重要参考价值。 5. 详实的案例验证: 通过药物-表型相互作用的案例研究,不仅展示了平台功能,还通过文献证据初步验证了预测结果的可靠性,增强了研究的说服力。

七、 其他有价值内容 研究最后提出了一个系统的湿实验验证路线图,以弥合计算预测与实验验证之间的差距。该路线图建议研究者优先验证BIND生成的高置信度(>95%)预测,重点关注现有实验证据有限且临床相关性高的相互作用。对于不同类型的预测(如药物-靶点、蛋白质-蛋白质、药物-表型),建议了相应的初始验证实验(如结合研究、细胞实验、疾病模型),并建议使用合适的模式生物(如斑马鱼、小鼠)进行体内研究。对于有临床前景的预测(尤其是药物重定位候选),建议进行电子健康记录回顾性分析和药物警戒数据库查询。研究强调,无论实验结果是阳性还是阴性,都应反馈至BIND以改进未来预测的准确性,从而建立一个稳健的“计算预测-实验验证”迭代管道。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com