基于可解释图神经网络的GNNRAI框架:整合多组学与先验知识以识别阿尔茨海默病生物标志物
作者与发表信息 本研究由Rohit K. Tripathy、Zachary Frohock、Hong Wang、Gregory A. Cary、Stephen Keegan、Gregory W. Carter和Yi Li共同完成。主要作者来自杰克逊基因组医学实验室(The Jackson Laboratory for Genomic Medicine)和杰克逊实验室(The Jackson Laboratory)。该研究论文《Effective integration of multi-omics with prior knowledge to identify biomarkers via explainable graph neural networks》发表于2025年的《npj Systems Biology and Applications》期刊。
学术背景 本研究属于计算生物学、生物信息学和系统生物学交叉领域,聚焦于多组学数据整合与疾病生物标志物发现。随着高通量技术的飞速发展,产生了海量的分子数据(如转录组学、蛋白质组学等),这些数据为理解复杂生物系统和疾病机制提供了前所未有的机会。然而,多组学数据整合面临巨大挑战:数据维度高、样本量相对较小、具有异质性,且常存在数据缺失。传统的无监督整合方法(如MOFA、iCluster、SNF)虽能发现共享模式,但难以针对特定疾病表型进行预测。现有的有监督方法(如MOGONET、MO-GCN)主要基于样本相似性网络构建,未能有效利用生物分子特征空间(如基因、蛋白质之间的已知关系)的先验知识。因此,本研究旨在开发一种新颖的、有监督的、可解释的框架,以整合多组学数据与先验生物学知识(以知识图谱形式表示),用于疾病状态预测和生物标志物识别。具体应用目标是阿尔茨海默病(AD),旨在通过整合转录组学和蛋白质组学数据,提升AD状态预测的准确性,并识别出与AD相关的、既有已知也有新颖的生物标志物及生物域(Biodomain)间的相互作用。
详细研究流程 本研究流程可概括为以下几个核心步骤:
数据准备与知识图谱构建:
GNNRAI模型框架构建与训练:
生物标志物与生物域相互作用的识别:
主要研究结果 1. GNNRAI模型性能优于基准方法:在ROSMAP DLPFC数据集上,GNNRAI整合模型在16个AD生物域中的13个上,其预测准确率超过了基准方法MOGONET,平均提升2.2%。值得注意的是,在7个生物域上,仅使用蛋白质组学的单模态GNNRAI模型甚至优于多模态的MOGONET模型,平均提升1.9%。这表明MOGONET直接整合模态特异性预测的策略,在转录组和蛋白质组数据不一致时可能效果不佳,而GNNRAI在表示层面进行对齐和整合的策略更为有效。
多组学整合提升单模态性能:在包含不完整样本的数据集上,GNNRAI整合模型的表现 consistently 优于单模态模型。具体而言,整合模型在转录组验证集上的准确率平均比单模态转录组模型高3.3%,在蛋白质组验证集上的准确率平均比单模态蛋白质组模型高2.1%。尽管蛋白质组数据样本量(287)远少于转录组数据(564),但整合模型有效平衡了蛋白质组数据更强的预测能力与转录组数据更大的样本信息量,实现了性能的全面提升。
跨队列验证揭示组织与队列特异性:将基于ROSMAP DLPFC训练的模型应用于其他脑区和队列进行验证,发现预测性能存在差异。在转录组数据上,MSBB的PHG脑区预测准确率最高(平均0.84),ROSMAP的PCC和DLPFC次之,而ROSMAP的ACC和Mayo的TCX准确率相对较低。这种差异可能与不同脑区的神经病理负担差异以及队列样本选择偏倚有关。在MSBB PHG的蛋白质组和多组学数据验证中,模型性能低于在ROSMAP DLPFC上的表现,且蛋白质组数据的预测能力反而不如转录组数据。作者分析这可能是因为模型在较小的ROSMAP蛋白质组数据上训练,导致泛化能力受限。
识别出关键AD预测性生物标志物:通过积分梯度分析,研究确定了前20个最具信息量的AD预测性基因/蛋白质。其中排名第一的是MDK,在84%的正确预测验证样本中都被识别为信息性特征。MDK是一种分泌型生长因子,与Aβ斑块密切相关。前20名中还包括多个已知的AD关键基因,如APP(淀粉样前体蛋白)、APOE(载脂蛋白E,最强的遗传风险因子)、LGMN(δ-分泌酶)、LTF(乳铁蛋白)等。此外,还发现了11个新的候选生物标志物(如IQGAP3),它们此前未被明确报道与AD发病机制相关,但其预测潜力值得进一步研究。值得注意的是,一些效应量变化不大但功能重要的特征(如APOE、FLT1、PTN)也被成功识别,证明了整合先验生物学通路知识的有效性。
揭示AD生物域间的相互作用网络:通过积分海森分析,构建了AD生物域相互作用图。结果显示,脂质代谢(Lipid Metabolism)是相互作用网络的枢纽(连接度为9),与线粒体代谢、细胞周期、凋亡等多个生物域存在强连接。这支持了脂质代谢在AD发病机制中的核心作用,与遗传学、脂质组学等多方面证据相符。其他被识别的显著相互作用,如APP代谢与脂质代谢、脂质代谢与线粒体代谢、细胞周期与线粒体代谢等,也都得到了文献证据的支持。该分析为理解AD中不同分子内表型如何协同作用提供了新的视角。
研究结论与价值 本研究成功开发并验证了GNNRAI这一新型可解释框架,用于有监督地整合多组学数据与先验生物学知识。该框架通过GNN建模特征间关系来应对高维小样本的挑战,并利用集合变换器处理缺失模态,实现了对阿尔茨海默病状态的准确预测。应用该框架不仅证明了在ROSMAP队列中整合转录组和蛋白质组数据能提升预测性能,更重要的是,识别出了一系列已知和新型的AD相关生物标志物,并揭示了不同生物功能域之间的相互作用网络。
其科学价值在于:1)方法论创新:提出了一种利用特征空间先验知识图谱(而非样本相似性网络)进行有监督多组学整合的新范式,增强了模型的生物学可解释性。2)应用价值:为基于多组学数据的疾病生物标志物发现和机制解析提供了一个强大的计算工具。3)生物学洞察:深化了对AD分子机制的理解,特别是确认了脂质代谢的核心枢纽地位,并提出了新的候选基因和域间相互作用,为后续实验验证和靶点探索提供了重要线索。
研究亮点 1. 新颖的整合策略:与现有基于样本相似性图的方法不同,GNNRAI首创性地使用图结构来建模组学特征(基因/蛋白质)之间的先验生物学关系,从而在特征空间进行降维和知识注入。 2. 处理现实数据复杂性:框架能够有效处理多组学数据中常见的样本模态缺失问题,避免了因删除不完整样本而造成的信息损失和统计效能下降。 3. 强大的可解释性:结合积分梯度和积分海森等可解释AI技术,不仅识别出单个生物标志物,还能揭示高阶的生物域间相互作用,提供了多层次、可解释的生物学洞见。 4. 系统的验证与发现:不仅在训练集上证明了性能优势,还进行了跨脑区、跨队列的广泛验证。识别出的生物标志物列表既包含了已知的AD核心基因(如APOE, APP),也包含了具有预测潜力的新基因(如IQGAP3),并通过富集分析(如M42模块)证实了其生物学相关性。
其他有价值内容 研究还讨论了当前方法的局限性和未来方向,例如:1)知识图谱假设转录组和蛋白质组网络结构相同,这可能过于简化;2)尚未整合甲基化组、代谢组等其他模态数据,但提出了基于现有基因/蛋白质网络构建相关图谱的可能性;3)识别相关特征集(如信息子图)仍是图神经网络解释领域的重要挑战。这些讨论为后续研究指明了改进和拓展的空间。