本文由Angela Serra、Michele Fratello、Antonio Federico和Dario Greco共同撰写,作者单位包括坦佩雷大学(Tampere University)医学与健康技术学院芬兰综合方法开发与验证中心(FHAIVE)以及赫尔辛基大学(University of Helsinki)药学院药物生物科学系。该文发表于2025年4月14日的《Expert Opinion on Drug Discovery》期刊,是一篇题为《知识图谱最新进展及其在药物发现中的当前与潜在应用》的专家观点(Expert Opinion)文章。文章系统性地回顾并分析了知识图谱(Knowledge Graphs, KGs)在药物发现领域的应用现状、面临的挑战以及未来的发展方向。
本文首先阐述了知识图谱在药物发现领域日益凸显的重要性。药物发现过程漫长、昂贵且失败率高,主要源于对疾病药理机制理解不足、靶点选择不当、候选药物未能有效调节靶点以及药物效应表征不充分等问题。传统的、基于表格的异构生物医学数据整合方法存在局限,而知识图谱作为一种图结构数据模型,能够有效整合疾病、基因/蛋白质、通路、药物等多种生物实体及其复杂关系,为系统层面的分析提供了强大工具。通过知识图谱嵌入(Knowledge Graph Embedding, KGE)和链接预测(Link Prediction)等技术,研究者可以从图谱中生成新假设,加速新疗法开发。
文章的核心部分是对现有生物医学知识图谱的全面比较与分析。作者通过文献检索(Google Scholar, PubMed)筛选了2020年后发表的相关研究,重点比较了多个知名知识图谱(如Hetionet, PharmKG, OpenBioLink, DRKG, PrimeKG, GenomicKB, BioTeque, UKS, CKG, Monarch等)在规模、实体类型、关系类型和数据来源方面的异同。
在规模方面,不同的知识图谱节点和边的数量差异巨大。例如,专注于基因组特征的GenomicKB拥有约3.47亿节点和13.6亿边,而专注于核心药物发现实体的PharmKG仅包含约7600个节点和50万条边。这种差异主要源于所包含的实体类型不同,例如,UKS和CKG包含了数以百万计的遗传变异节点,而GenomicKB则包含了大量的表观遗传特征节点,如转录因子结合位点(TFBS)。
在实体类型方面,文章指出,几乎所有被调查的知识图谱都包含了基因、疾病和化合物这三类核心实体,这反映了它们在理解疾病机制、识别治疗靶点和开发疗法中的关键作用。此外,许多图谱还包含了基因本体(Gene Ontology, GO)术语、通路、表型和解剖学术语等实体,以映射生物功能、疾病特征和药物系统效应。而组织、细胞、副作用等实体则出现在较少的图谱中,提供了关于化合物功效和安全性的更具体信息。一些独特的实体,如关键事件(Key Events)和不良结局通路(Adverse Outcome Pathways, AOP),目前仅被UKS整合,有助于从机制上解释化合物的效应。
在关系类型方面,不同的知识图谱在关联的粒度上存在显著差异。例如,OpenBioLink、UKS和DRKG在化合物与基因之间提供了最细粒度(九种类型)的关系,这使其特别适合研究化合物暴露的分子机制。在化合物-疾病关联方面,Hetionet区分了“缓解疾病”和“治疗疾病”的关系,而DRKG则包含了从治疗、抑制细胞生长到作为研究疗法等多样化的交互类型,使其成为药物重定位研究的宝贵资源。对于药物-药物相互作用,PrimeKG提供了关于协同作用的详细信息,而Oregano则提供了关于联合用药时药效增减的数据。
文章进一步强调了知识图谱在数据模型和标识符方面存在的重大差异所带来的整合挑战。数据模型方面,不同图谱对基因产物(基因、蛋白质、转录本)的表示方式不一,对化合物的标签(“化学品”、“药物”、“化合物”、“小分子”)也不统一。标识符方面,基因可能使用Entrez Gene ID、STRING ID或UniProt ID,疾病和表型可能映射到疾病本体(DO)、MeSH术语或Monarch疾病本体(MONDO)ID。这种不一致性严重阻碍了不同知识图谱之间的联合分析与互操作性。
数据来源的多样性是导致知识图谱差异的另一个关键原因。常用的数据源包括Gene Ontology、Reactome、SIDER、DrugBank、Human Phenotype Ontology、Disease Ontology、Uberon、DisGeNET和比较毒物基因组学数据库(CTD)等。然而,各图谱整合的数据源组合各不相同。例如,UKS是唯一整合了EWAS Catalog和AOP-Wiki数据的图谱,而GenomicKB则专注于基因组注释数据源。DRKG集成了包括GNBR(全球生物医学关系网络)在内的多种来源,以系统地提取文献中的关系。数据源的格式、元数据、标识符缺乏标准化,数据质量不一致以及更新时效性问题,都给知识图谱的构建和应用带来了复杂性。
本文随后详细介绍了知识图谱在药物发现中的具体应用实例,并总结了一个标准化的工作流程:首先整合异构生物医学数据构建多关系知识图谱;然后应用知识图谱嵌入技术将结构化数据投影到低维向量空间,以保留复杂的生物关系;最后利用链接预测等下游计算分析任务,实现药物靶点相互作用预测、药物疗效评估、疾病基因关联推断和药物重定位等应用。
在药物靶点相互作用(DTI)预测方面,文章列举了PertKGE、TTModel和MSI-DTI等研究。这些方法通过整合分子相互作用、mRNA调控、非结构化生物医学文本(如PubMed摘要,利用BioBERT模型)以及药物SMILES和蛋白质氨基酸序列等多源信息,构建更全面的知识图谱或特征,显著提升了DTI预测的准确性。例如,PertKGE通过DistMult算法进行知识图谱嵌入,成功预测并实验验证了抗癌化合物K-756的新靶点。
在药物疗效预测方面,文章以PLANET方法为例。PLANET是一个几何深度学习框架,它将临床试验数据(药物、条件、人群)、疾病生物学和药物化学信息整合到一个知识图谱中。通过学习所有实体的通用嵌入,PLANET能够预测未见过的实验药物在不同患者群体中的疗效(如患者生存期)和不良事件,从而指导临床试验设计和患者分层。
在疾病基因关联预测方面,研究者通过构建包含蛋白质相互作用、基因注释、表型-疾病关联等信息的定制知识图谱,并应用BioKG2Vec、DLEmb或KDGene等嵌入方法,将疾病基因关联预测转化为分类或链接预测任务。这些方法能够利用图谱中的语义丰富性(如不同粒度的本体术语)来提升预测性能,并识别新的候选疾病相关基因。
在药物重定位方面,知识图谱通过整合多层面数据来揭示药物与疾病之间隐藏的联系。KGML-xDTD框架结合了知识图谱和基于图的强化学习(GRL),不仅能预测药物治疗概率,还能使用基于图谱路径的、可测试的作用机制(MOA)提供生物学解释。XG4Repo框架则利用元路径(metapath)规则模型来连接化合物与疾病,并通过自然语言提供解释,增强了预测的可信度。EDGAR框架通过富集分析在生物医学知识图谱中识别统计显著模式,专门用于阿尔茨海默病的药物重定位,提高了预测的可靠性和可解释性。
在文章的“专家观点”部分,作者指出了当前知识图谱发展面临的几个核心挑战与未来方向。首先,不同知识图谱在构建方式、实体关系表示、数据源和标识符上存在显著不一致,这导致了碎片化,阻碍了图谱的复用和整合。应用特定图谱的激增,而非构建综合性的参考图谱,造成了重复工作。改善文档、标准化方法以及采用标准化API(如ROBOKOP API)促进联邦查询,是提高互操作性的关键。
其次,现有知识图谱在整合某些关键知识领域方面存在明显缺口。例如,化合物的化学结构信息整合不足,尽管BioTeque和UKS有所尝试,但更复杂的化学表征(如用于药物设计的结构)需要更好地融入图谱。同样,组学数据(如基因表达数据)以兼容知识图谱的格式进行系统整合仍是一个挑战,初步尝试如将组织/细胞系表达数据以关系形式(如“基因在细胞系/组织中低表达”)纳入UKS,展示了可行的路径。此外,整合化学品和材料的安全性与可持续性数据,对于推进“安全可持续设计”和绿色化学原则至关重要。
第三,数据偏见和负样本缺失是影响预测模型稳健性的重要问题。生物医学文献和知识图谱结构本身存在偏见(如对癌症研究的过度关注),而真实负相互作用数据的缺乏迫使模型依赖负采样技术。鼓励报告阴性结果并开发包含真实负相互作用的数据库(如扩展Negatome数据库),将极大增强知识图谱工具的可靠性。
最后,文章着重强调了大型语言模型(Large Language Models, LLMs)与知识图谱融合的巨大潜力。生成式LLMs(如ChatGPT)可以作为用户与知识图谱之间的自然语言接口,使非专业研究人员也能高效查询图谱。更重要的是,LLMs能够增强知识图谱预测的可解释性,不仅总结实体列表,还能结合分子背景(如细胞环境、涉及的通路)来解释预测出的新关联路径,使复杂数据更透明、洞察更易理解。Monarch Initiative为OpenAI开发的插件就是一个实例。
文章展望了药物发现领域的未来愿景:一个集成了知识图谱、先进推理引擎(可能由LLMs驱动)和人类专家智慧的协作式开源平台。该平台将鼓励用户以标准化格式贡献数据,并希望主要数据提供商(如NCBI、EBI)能够以原生知识图谱格式提供数据库。平台中的推理引擎将生成新假设并设计实验方案,同时量化不确定性,指导研究者关注需要进一步数据或实验的领域。采用“人在回路”方法,专家可以对引擎生成的假设进行排序和反馈,从而迭代优化模型。这样一个平台将成为数据整合、假设生成和机制解释的综合性工具集,推动药物发现实现重大飞跃。
本文的价值在于它对快速发展的知识图谱领域进行了及时、全面的梳理,不仅总结了技术方法、现有资源和应用案例,更关键的是敏锐地指出了该领域在标准化、数据整合广度、可解释性以及人机协作等方面面临的瓶颈与机遇。它为药物发现领域的研究者提供了一份实用的“地图”和“指南针”,既展示了知识图谱这一强大工具的当前能力,也为其未来的发展和更广泛、更深入的应用描绘了清晰的路线图。