这篇研究由来自MRC Laboratory of Medical Sciences, Imperial College London、National Heart and Lung Institute, Imperial College London、Bayer AG以及King’s College London等多个机构的Khaled Rjoob, Kathryn A. McGurk, Sean L. Zheng等学者共同完成,并于近期在 Nature Cardiovascular Research 期刊上发表(在线发表日期为2025年XX月XX日)。
一、 学术背景
本研究属于生物医学信息学、心血管病学与人工智能的交叉领域。理解基因与疾病之间的关联对于揭示病理机制和识别潜在治疗靶点至关重要。知识图谱(Knowledge Graph, KG)作为一种强大的语义网络,能够系统性地建模和整合来自多个生物医学来源的数据(如基因组学、蛋白质组学、通路信息等),从而揭示复杂疾病背后的多层次生物关系。然而,传统知识图谱通常缺乏个体层面的、能够直接反映靶器官结构与功能的表型信息,特别是那些来源于医学成像的定量化表型。
基于此背景,研究团队提出:将源自大规模人群生物医学影像(如心脏磁共振成像)的、由计算机视觉自动提取的丰富心血管表型数据,整合到知识图谱中,可能会提供更接近疾病病理生理学的“内表型”(endophenotypes)。这些内表型可能比传统可观测特征更能提升模型预测基因-疾病关联以及发现潜在治疗策略的能力。因此,本研究旨在开发一个名为CardioKG的多模态(整合影像与多源数据库)心血管疾病知识图谱,并评估其在大规模人群中预测基因-疾病关联、评估靶点可成药性及发现药物再利用策略方面的效能。
二、 详细研究流程
本研究流程严谨且复杂,主要包括知识图谱构建、图嵌入生成、机器学习预测、功能富集分析、可成药性评估以及药物再利用验证等多个关键步骤。
1. 研究对象与数据源 研究核心数据来源于英国生物银行(UK Biobank)。UK Biobank是一项大规模前瞻性队列研究,招募了约50万名40-69岁的参与者。本研究选取了其中一部分参与者构建知识图谱和进行验证: * 知识图谱构建队列:共9,584名参与者,其中包括4,280名患有心房颤动(Atrial Fibrillation, AF)、心力衰竭(Heart Failure, HF)、心肌梗死(Myocardial Infarction, MI)、肥厚型心肌病(HCM)或扩张型心肌病(DCM)的诊断者,以及一个由5,304名健康参与者组成的参照组,以捕捉广泛的表型多样性。 * 药物再利用验证队列:489名患有心力衰竭或心房颤动,并且因类风湿关节炎正在使用特定药物(甲氨蝶呤、柳氮磺吡啶或羟氯喹)的参与者,该队列不包含影像数据,用于后续生存分析验证。
2. 知识图谱(CardioKG)的构建 这是研究的基础工作。研究团队整合了来自19个不同的生物医学数据库的数据。 * 数据提取:除了UK Biobank中参与者的临床信息、用药史、空气污染暴露等数据外,还从18个外部数据库中提取了基因、疾病、药物、分子通路、分子功能(MF)、生物过程(BP)、细胞成分(CC)、蛋白质相互作用、表型本体、疾病本体等实体及其相互关系的信息。 * 影像表型整合:这是本研究的核心创新点。研究者利用计算机视觉技术(一种全卷积神经网络)对参与者的心脏磁共振成像(CMR)进行自动分割和运动追踪,从中提取了21个关键的图像衍生表型。这些表型涵盖了心房、心室和主动脉的结构与功能,例如左心室射血分数(LVEF)、心房容积、主动脉可扩张性、应变率等。每个影像特征在知识图谱中被创建为一个独立的节点,并与其对应的解剖结构(如左心室)、疾病节点和表型节点相连接。 * 图谱结构:最终构建的CardioKG包含了33,277个节点和1,195,437个关系。节点类型包括基因(18,606个)、参与者个体(9,584个)、药物(2,106个)、分子通路(1,707个)、疾病(1,036个)以及解剖结构、CMR特征、环境暴露(如空气污染物)等。
3. 图嵌入算法开发与训练 为了将复杂的图结构转化为适用于下游机器学习任务的数值化表示,研究团队开发并应用了一种定向变分图自动编码器(Directed Variational Graph Auto-Encoder, DVGAE)。 * 算法新颖性:不同于传统的图嵌入方法(如Node2Vec, TransE),DVGAE不仅考虑了图的拓扑结构,还特别保留了节点和关系的属性以及关系的方向性。这对于准确捕捉生物医学知识图谱中复杂的语义关系至关重要。编码器处理节点类型、节点属性、边属性和方向,生成低维隐层表征(嵌入)。解码器则利用这些嵌入来重构图谱中的边。 * 训练与验证:模型在70%的图上进行训练,30%用于验证。通过网格搜索优化超参数后,最终模型的边重建准确率高达98.1%,表明生成的嵌入向量高度忠实地保留了原始图谱的结构和语义信息。
4. 基因-疾病关联预测 研究聚焦于三种最常见且可治疗的心血管疾病:心力衰竭、心房颤动和心肌梗死。 * 数据准备:利用DisGeNET数据库中的已知基因-疾病关联作为训练数据的“金标准”。对于每种疾病,将该疾病节点的嵌入向量与已知关联基因(正样本)和已知无关基因(负样本)的嵌入向量进行拼接,并打上标签(1或0)。 * 模型训练与评估:使用拼接后的嵌入向量,分别训练了随机森林、支持向量机(SVM)和人工神经网络(ANN)三种机器学习分类器,并采用五折交叉验证进行评估。结果显示,SVM模型在三种疾病上都表现出最佳的综合性能(例如,对于HF,准确率72.4%,AUC-ROC为0.80)。因此,后续分析选用SVM。 * 预测未知关联:用训练好的SVM模型预测那些在DisGeNET中与目标疾病无已知关联的基因,并根据预测概率进行排序。每种疾病筛选出排名前10的基因进行后续分析。
5. 功能富集分析与影像数据重要性评估 为了验证预测基因的生物学合理性,研究团队对每种疾病排名前10的基因进行了功能富集分析。 * 富集结果:分析显示,预测出的基因显著富集在与疾病相关的关键通路上。例如,在HF中,预测基因(如GATA2, EGR1, EP300)与815条通路显著相关,其中66条被确定为相关通路,涉及血管生成、MAPK级联反应等,这些通路与细胞再生、衰老和心力衰竭病理机制密切相关。类似地,在AF和MI中也发现了与心脏传导、缺氧反应、免疫系统过程、细胞凋亡等相关的通路富集。 * 影像数据的关键作用:为了量化影像数据的重要性,研究进行了“消融实验”。当从知识图谱中移除所有CMR特征节点后,SVM模型的预测性能显著下降。更重要的是,功能富集分析发现,在没有影像数据的情况下,识别出的相关通路数量急剧减少(例如,HF从66条减少到仅4条)。这强有力地证明了整合影像数据极大地增强了模型发现与疾病核心病理生理学相关通路的能力。PageRank算法也显示CMR节点在整个图谱中具有最高的中心性得分,LVEF是最具影响力的影像特征。
6. 靶点可成药性评估 利用药物-基因相互作用数据库(DGIdb)评估了排名前10的预测基因是否可作为现有药物的靶点。 * 结果:在HF预测的10个基因中,有5个被鉴定为“可成药”的(如AR, APP, GATA2, EGR1, EP300),共有48种已知药物可靶向这些基因。在AF预测的基因中,有7个是可成药的(如SRC, HSPA8, EP300),包括几种二肽基肽酶-4抑制剂(“格列汀”类降糖药),这与观察性研究中此类药物可能具有抗心律失常作用的证据相符。在MI中,有2个基因被鉴定为可成药(如SNCA, H2AX)。 * 影像数据的提升作用:同样,包含CMR特征的图谱发现的潜在可成药基因数量明显多于不含影像数据的图谱。
7. 药物再利用预测与临床验证 这是将研究发现推向临床转化的关键一步。 * 模型预测:采用与基因-疾病预测类似的方法,将疾病节点嵌入与已知有效或禁忌的药物节点嵌入拼接,训练模型来预测新的疾病-药物关联。对于HF,模型预测出的潜在再利用药物排名前10的包括甲氨蝶呤(Methotrexate)、托吡酯(Topiramate)和雷诺嗪(Ranolazine)等。 * 机制验证:对预测药物的已知靶基因进行功能富集分析。例如,甲氨蝶呤的靶点DHFR与氧化应激反应调节通路相关,托吡酯的靶点涉及心肌细胞收缩和动作电位调节,这些都与HF的病理生理学高度相关,为预测提供了生物学合理性支持。 * 生存分析验证(核心临床证据):研究团队利用独立的、未参与模型构建的UK Biobank子队列(489名同时患有HF和类风湿关节炎的患者)进行回顾性生存分析。结果发现,与使用其他抗风湿药物(羟氯喹、柳氮磺吡啶)的患者相比,使用甲氨蝶呤的HF患者生存概率显著更高(风险比HR=0.65, p<0.01)。这一发现在另一个独立的大型临床数据库BioVU中得到了重复验证(HR=0.71, p<0.05),与近期一项针对90万患者的大型注册研究结果一致,极大地增强了预测结果的可信度。 * 图相似性验证:在嵌入向量空间中,计算发现预测药物与当前已批准用于HF的药物的余弦相似度很高,表明它们在知识图谱中的语义或结构背景相似,进一步支持了其治疗相关性。
三、 主要结果
四、 结论
本研究成功证明,将大规模、定量化的医学影像表型整合到知识图谱中,能够显著增强图结构模型识别可治疗疾病机制的能力。CardioKG不仅是一个强大的研究工具,能够系统性地发现新的基因-疾病关联和相关的生物学通路,更重要的是,它提供了一个从数据到潜在临床干预的转化研究框架。通过预测和初步验证甲氨蝶呤等药物的再利用潜力,本研究展示了如何利用人工智能驱动的多模态知识发现来加速心血管疾病治疗策略的发掘,为精准医学应用提供了新的范例。
五、 研究亮点
六、 其他有价值的内容
研究还探讨了模型的最小化配置,发现即使只保留核心实体(疾病、基因、暴露、药物、解剖和CMR),模型仍能保持强大的预测性能,凸显了CMR数据的核心地位。此外,研究也坦诚地指出了当前工作的局限性,包括UK Biobank人群的种族多样性不足、未区分心力衰竭的不同亚型(如射血分数保留型心衰),以及知识图谱构建技术本身仍在发展中等问题,为未来研究指明了方向。最后,作者展望了利用更大规模、更多样化的人群数据以及结合大型语言模型等前沿技术,进一步推动个性化诊疗策略发展的未来机遇。