分享自:

利用可解释图神经网络整合多组学与先验知识识别生物标志物

期刊:npj systems biology and applicationsDOI:10.1038/s41540-025-00519-9

基于可解释图神经网络的GNNRAI框架:整合多组学与先验知识以识别阿尔茨海默病生物标志物

作者与发表信息 本研究由Rohit K. Tripathy、Zachary Frohock、Hong Wang、Gregory A. Cary、Stephen Keegan、Gregory W. Carter和Yi Li共同完成。主要作者来自杰克逊基因组医学实验室(The Jackson Laboratory for Genomic Medicine)和杰克逊实验室(The Jackson Laboratory)。该研究论文《Effective integration of multi-omics with prior knowledge to identify biomarkers via explainable graph neural networks》发表于2025年的《npj Systems Biology and Applications》期刊。

学术背景 本研究属于计算生物学、生物信息学和系统生物学交叉领域,聚焦于多组学数据整合与疾病生物标志物发现。随着高通量技术的飞速发展,产生了海量的分子数据(如转录组学、蛋白质组学等),这些数据为理解复杂生物系统和疾病机制提供了前所未有的机会。然而,多组学数据整合面临巨大挑战:数据维度高、样本量相对较小、具有异质性,且常存在数据缺失。传统的无监督整合方法(如MOFA、iCluster、SNF)虽能发现共享模式,但难以针对特定疾病表型进行预测。现有的有监督方法(如MOGONET、MO-GCN)主要基于样本相似性网络构建,未能有效利用生物分子特征空间(如基因、蛋白质之间的已知关系)的先验知识。因此,本研究旨在开发一种新颖的、有监督的、可解释的框架,以整合多组学数据与先验生物学知识(以知识图谱形式表示),用于疾病状态预测和生物标志物识别。具体应用目标是阿尔茨海默病(AD),旨在通过整合转录组学和蛋白质组学数据,提升AD状态预测的准确性,并识别出与AD相关的、既有已知也有新颖的生物标志物及生物域(Biodomain)间的相互作用。

详细研究流程 本研究流程可概括为以下几个核心步骤:

  1. 数据准备与知识图谱构建

    • 研究对象与数据来源:研究主要基于宗教秩序研究/记忆衰老项目(ROSMAP)队列的数据。分析了来自背外侧前额叶皮层(DLPFC)脑区的基因表达(转录组学)和蛋白质丰度(蛋白质组学)数据。根据临床认知评估和神经病理学标准(如MMSE/CDR评分、Braak分期、CERAD评分),将样本标记为AD患者或健康对照。最终获得的数据集包括:228个同时具有转录组和蛋白质组数据的样本,59个仅有蛋白质组数据的样本,以及336个仅有转录组数据的样本。
    • AD生物域(Biodomain)定义:研究采用了Cary等人(2024)定义的AD相关生物域。生物域是反映AD相关内表型的功能单元,每个域包含数百至数千个基因/蛋白质。研究使用了16个满足特定富集分析标准的生物域(如细胞周期、免疫反应、脂质代谢、突触等)。
    • 知识图谱生成:为每个生物域构建了先验知识图谱。图谱的节点是来自该生物域的基因/蛋白质,边则代表蛋白质-蛋白质相互作用(PPI),这些相互作用信息从Pathway Commons数据库中提取,并通过最短路径算法在风险富集基因之间重建。每个样本的组学数据(如基因表达值)被编码为对应生物域图谱的节点特征。因此,每个样本在每个可用组学模态下,都对应一个图结构数据。
  2. GNNRAI模型框架构建与训练

    • 核心架构:本研究提出了名为GNNRAI(GNN-derived Representation Alignment and Integration)的端到端AI框架。其核心思想是利用图神经网络(GNN)对高维组学数据中特征(基因/蛋白质)之间的相关性结构进行建模,从而降低数据有效维度,实现用数百个样本同时分析数千个基因。
    • 特征提取模块:对于每个组学模态(如转录组、蛋白质组),设计了一个基于GNN的特征提取器。该模块以组学测量值(节点特征)和对应的生物域知识图谱(图拓扑结构)作为输入。GNN通过消息传递机制聚合节点及其邻居的信息,学习每个样本的低维图嵌入表示(本研究中统一为16维)。该GNN采用了包含位置编码(将节点软映射到可学习的社区)、图卷积块(包含自定义的图卷积层、ReLU激活、残差连接、批归一化,以及针对大型图的可选Top-K池化层)和记忆池化层的架构,以生成紧凑的样本表示。
    • 特征对齐与整合:对于具有完整多组学数据的样本,GNN提取的不同模态的嵌入表示首先通过最大化其维度间的Pearson相关性进行对齐,确保不同模态的嵌入在语义上具有可比性。随后,使用集合变换器(Set Transformer)将这些对齐后的模态嵌入,与一个可学习的类别标记(class token)一起进行整合。集合变换器通过自注意力机制学习跨模态的共享模式,最终由整合后的类别标记表示通过一个多层感知机(MLP)进行疾病状态(AD/对照)预测。
    • 处理不完整样本:GNNRAI框架的一个关键优势是能够处理缺失某些组学模态的样本。对于仅具有单一组学数据的样本,其GNN嵌入会通过一个独立的MLP分类器进行预测,而不参与跨模态对齐和集合变换器整合。在训练时,模型会随机遍历包含不同模态组合的数据子集进行权重更新。
    • 模型训练与评估:采用三折交叉验证评估模型性能。使用二元交叉熵损失函数,并结合对齐损失和正则化项进行优化。将GNNRAI与基准方法MOGONET在相同数据集上进行比较。此外,还在其他独立队列(如ROSMAP的其他脑区ACC/PCC、MSBB队列、Mayo Clinic队列)的转录组和/或蛋白质组数据上验证了训练好的模型的泛化能力。
  3. 生物标志物与生物域相互作用的识别

    • 生物标志物识别:使用积分梯度(Integrated Gradients)这一事后归因方法,对训练好的多组学GNNRAI模型进行分析。该方法通过计算模型预测相对于输入特征(即基因/蛋白质的表达/丰度值)的梯度积分,来估计每个节点(基因/蛋白质)对预测结果的重要性得分。为了控制假发现率(FDR < 0.05),研究采用了基于排列检验的方法来确定重要性得分的显著性阈值。最终,识别出在正确预测的验证样本中反复出现的高重要性基因/蛋白质,作为AD预测性生物标志物。
    • 生物域相互作用检测:为了探究不同生物域之间的功能关联,研究进行了第二阶段建模。首先,收集每个生物域多组学整合模型(第一阶段的集合变换器)输出的类别标记表示(即每个生物域的整合嵌入)。然后,训练一个辅助的集合变换器来整合这16个生物域的嵌入。最后,应用积分海森(Integrated Hessians)方法到这个辅助模型上,以推导输入标记(即各个生物域)之间的相互作用得分,从而识别出在AD背景下具有显著交互关系的生物域对。

主要研究结果 1. GNNRAI模型性能优于基准方法:在ROSMAP DLPFC数据集上,GNNRAI整合模型在16个AD生物域中的13个上,其预测准确率超过了基准方法MOGONET,平均提升2.2%。值得注意的是,在7个生物域上,仅使用蛋白质组学的单模态GNNRAI模型甚至优于多模态的MOGONET模型,平均提升1.9%。这表明MOGONET直接整合模态特异性预测的策略,在转录组和蛋白质组数据不一致时可能效果不佳,而GNNRAI在表示层面进行对齐和整合的策略更为有效。

  1. 多组学整合提升单模态性能:在包含不完整样本的数据集上,GNNRAI整合模型的表现 consistently 优于单模态模型。具体而言,整合模型在转录组验证集上的准确率平均比单模态转录组模型高3.3%,在蛋白质组验证集上的准确率平均比单模态蛋白质组模型高2.1%。尽管蛋白质组数据样本量(287)远少于转录组数据(564),但整合模型有效平衡了蛋白质组数据更强的预测能力与转录组数据更大的样本信息量,实现了性能的全面提升。

  2. 跨队列验证揭示组织与队列特异性:将基于ROSMAP DLPFC训练的模型应用于其他脑区和队列进行验证,发现预测性能存在差异。在转录组数据上,MSBB的PHG脑区预测准确率最高(平均0.84),ROSMAP的PCC和DLPFC次之,而ROSMAP的ACC和Mayo的TCX准确率相对较低。这种差异可能与不同脑区的神经病理负担差异以及队列样本选择偏倚有关。在MSBB PHG的蛋白质组和多组学数据验证中,模型性能低于在ROSMAP DLPFC上的表现,且蛋白质组数据的预测能力反而不如转录组数据。作者分析这可能是因为模型在较小的ROSMAP蛋白质组数据上训练,导致泛化能力受限。

  3. 识别出关键AD预测性生物标志物:通过积分梯度分析,研究确定了前20个最具信息量的AD预测性基因/蛋白质。其中排名第一的是MDK,在84%的正确预测验证样本中都被识别为信息性特征。MDK是一种分泌型生长因子,与Aβ斑块密切相关。前20名中还包括多个已知的AD关键基因,如APP(淀粉样前体蛋白)、APOE(载脂蛋白E,最强的遗传风险因子)、LGMN(δ-分泌酶)、LTF(乳铁蛋白)等。此外,还发现了11个新的候选生物标志物(如IQGAP3),它们此前未被明确报道与AD发病机制相关,但其预测潜力值得进一步研究。值得注意的是,一些效应量变化不大但功能重要的特征(如APOE、FLT1、PTN)也被成功识别,证明了整合先验生物学通路知识的有效性。

  4. 揭示AD生物域间的相互作用网络:通过积分海森分析,构建了AD生物域相互作用图。结果显示,脂质代谢(Lipid Metabolism)是相互作用网络的枢纽(连接度为9),与线粒体代谢、细胞周期、凋亡等多个生物域存在强连接。这支持了脂质代谢在AD发病机制中的核心作用,与遗传学、脂质组学等多方面证据相符。其他被识别的显著相互作用,如APP代谢与脂质代谢、脂质代谢与线粒体代谢、细胞周期与线粒体代谢等,也都得到了文献证据的支持。该分析为理解AD中不同分子内表型如何协同作用提供了新的视角。

研究结论与价值 本研究成功开发并验证了GNNRAI这一新型可解释框架,用于有监督地整合多组学数据与先验生物学知识。该框架通过GNN建模特征间关系来应对高维小样本的挑战,并利用集合变换器处理缺失模态,实现了对阿尔茨海默病状态的准确预测。应用该框架不仅证明了在ROSMAP队列中整合转录组和蛋白质组数据能提升预测性能,更重要的是,识别出了一系列已知和新型的AD相关生物标志物,并揭示了不同生物功能域之间的相互作用网络。

其科学价值在于:1)方法论创新:提出了一种利用特征空间先验知识图谱(而非样本相似性网络)进行有监督多组学整合的新范式,增强了模型的生物学可解释性。2)应用价值:为基于多组学数据的疾病生物标志物发现和机制解析提供了一个强大的计算工具。3)生物学洞察:深化了对AD分子机制的理解,特别是确认了脂质代谢的核心枢纽地位,并提出了新的候选基因和域间相互作用,为后续实验验证和靶点探索提供了重要线索。

研究亮点 1. 新颖的整合策略:与现有基于样本相似性图的方法不同,GNNRAI首创性地使用图结构来建模组学特征(基因/蛋白质)之间的先验生物学关系,从而在特征空间进行降维和知识注入。 2. 处理现实数据复杂性:框架能够有效处理多组学数据中常见的样本模态缺失问题,避免了因删除不完整样本而造成的信息损失和统计效能下降。 3. 强大的可解释性:结合积分梯度和积分海森等可解释AI技术,不仅识别出单个生物标志物,还能揭示高阶的生物域间相互作用,提供了多层次、可解释的生物学洞见。 4. 系统的验证与发现:不仅在训练集上证明了性能优势,还进行了跨脑区、跨队列的广泛验证。识别出的生物标志物列表既包含了已知的AD核心基因(如APOE, APP),也包含了具有预测潜力的新基因(如IQGAP3),并通过富集分析(如M42模块)证实了其生物学相关性。

其他有价值内容 研究还讨论了当前方法的局限性和未来方向,例如:1)知识图谱假设转录组和蛋白质组网络结构相同,这可能过于简化;2)尚未整合甲基化组、代谢组等其他模态数据,但提出了基于现有基因/蛋白质网络构建相关图谱的可能性;3)识别相关特征集(如信息子图)仍是图神经网络解释领域的重要挑战。这些讨论为后续研究指明了改进和拓展的空间。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com