分享自:

基于动态边缘GNN和多任务学习的简化多视图深度表征的多组学分类框架

期刊:Computers in Biology and MedicineDOI:10.1016/j.compbiomed.2024.109040

作者与研究发表情况

这项研究由来自南昌工程学院信息工程学院的Li Min、Chen Zihao、Deng Shaobo、Wang Lei及Yu Xiang共同进行,并发表于《Computers in Biology and Medicine》期刊。其正式发表日期为2024年8月,DOI号为10.1016/j.compbiomed.2024.109040。


研究的学术背景

本研究的学科领域是多组学数据整合分析与机器学习在医学诊断中的应用。随着高通量测序技术的快速发展,生物学研究从单一组学的研究模式转向多组学数据整合分析的趋势愈发显著。通过基因组学(Genomics)、转录组学(Transcriptomics)、蛋白质组学(Proteomics)和代谢组学(Metabolomics)等多层次的生物学数据整合,不仅可以更全面地揭示疾病的分子机制,还能提高疾病亚型诊断的准确性,进而推动精准医疗的发展。然而,现有方法难以有效提取组学数据中的共享(Shared)与特异(Specific)表示,这成为进一步提升分类模型性能的瓶颈。此外,人工智能(AI)技术尚未在医学领域得到充分应用。为应对这一挑战,研究者提出了一个创新性的多组学分类框架——MOSDNet,旨在高效整合多组学数据并提取其核心信息,进而实现更精准的疾病诊断。

研究目标包括:1)构建一个有效提取共享与特异表示的新模型;2)利用图神经网络(Graph Convolutional Network, GCN)探索病人之间的复杂关系;3)通过多任务学习(Multi-task Learning)提升模型的泛化能力和分类性能。


研究的详细工作流程

数据来源与预处理

研究使用了公开多组学数据集,主要包括四个分类任务的数据集:BRCA(乳腺癌)、ROSMAP(阿尔茨海默病)、KIPAN(肾癌亚型)以及LGG(低级胶质瘤亚型)。这些数据覆盖了转录组(mRNA表达)、DNA甲基化、miRNA表达等三种组学数据。此外,为验证模型能在无标签数据中有效提取共享和特异表示,研究者还结合了五个未标注癌症数据集(如乳腺侵袭性癌症BIC和结肠癌COAD)。每个数据集样本量以及包含的组学类型在研究中均进行详细描述和预处理。

简化多视图深度判别表示学习(Simplified Multi-view Deep Discriminant Representation Learning, S-MDDR)

研究从多视图学习方法中得到启发,提出“S-MDDR”方法,用于提取多组学数据的共享和特异表示。与传统对抗生成网络(GAN)不同,S-MDDR采用正交约束和相似性约束替代对抗生成,降低了计算复杂性并更适应小样本数据。关键过程包括:
1. 构建特征提取网络,从每类组学中提取共享表示和特异表示。
2. 通过正交约束区分共享与特异信息,并通过相似性损失增强多组学之间的共性表达。
3. 将提取的特异表示和共享表示拼接,形成综合性的集成表示。

病人相似性网络构建与动态边图卷积网络(Dynamic Edge Graph Convolutional Network, DEGNN)

病人间的相似性信息是在多组学整合数据中重要特征之一。研究者借助余弦相似性计算相邻病人之间的关系,并构建病人相似性网络。在网络卷积中,动态边通过每层图卷积后的节点更新重新优化,确保得到的网络结构既包含全局信息又避免冗余连接。

多任务学习

MOSDNet框架整合了任务1(多组学数据整合)和任务2(疾病分类分析)。通过共享损失函数,两个互相增强的任务共同训练,从而提升模型的整体性能。此研究中采用序列任务的软参数共享策略(Sequential Task Soft Parameter Sharing),两任务既独立又互为补充。


研究主要成果

  1. 疾病分类性能提升
    MOSDNet在四个数据集上的分类性能显著优于现有方法,无论是传统方法(如KNN、SVM)还是最新多组学分类模型(如MOGONet、MOGCN)。在ROSMAP数据集中,MOSDNet的分类准确率达到86.9%,相比MOGONet(82.7%)提升显著;而在KIPAN数据集中,MOSDNet准确率更是高达99.7%。实验还通过t-SNE降维技术展示了模型在学习分类空间中的显著能力。

  2. 共享与特异表示有效性验证
    通过使用未标注癌症数据集,研究验证了MOSDNet提取的共享与特异表示能够成功保留样本的分层聚类结构。采用K-means聚类对比原始数据与使用S-MDDR整合的数据,计算轮廓系数(Silhouette Coefficient),结果显示整合后的数据聚类性能明显优于原始数据和传统自编码器方法(Autoencoder,AE)。

  3. 多组学整合对性能的影响
    实验比较单组学数据、两组学数据组合及三组学整合对分类性能的影响,结果显示整合三种组学数据的模型分类性能最高,强化了多组学整合的优势和MOSDNet的扩展性。

  4. 生物标志物分析
    MOSDNet对于标记特征的检测能力突出,通过对特征重要性分析分别在阿尔茨海默病和乳腺癌任务中成功识别30个关键生物标志物。

    • 在阿尔茨海默病中,识别出一些重要基因(如Apln、Kif5a)及其关联的生物学过程(如神经肽受体结合)。
    • 在乳腺癌分类中,发现SoX11、Ly6D等基因与癌症侵袭和预后密切相关。这些发现不仅为疾病研究提供新的见解,还为更精准的治疗策略铺平了道路。

研究结论与意义

MOSDNet通过创新性方法有效整合多组学数据,提升了疾病分类的准确性和可靠性,并展示了识别关键生物标志物的能力。研究强调了多任务学习与动态边网络在优化分类性能中的重要性。此外,MOSDNet具备良好的扩展性与可解释性,适应不断变化的组学数据需求,进一步推动了多组学分析在医学诊断和精准医疗领域的发展。


研究亮点

  1. 创新提出S-MDDR算法,优化多组学数据共享与特异表示的提取。
  2. 动态边GCN模型实现了病人相似性网络的深度表征。
  3. 采用多任务学习解决传统模型任务隔离的问题,全面提升分类精度。
  4. 提供对阿尔茨海默病和乳腺癌潜在生物标志物的新见解,为医学研究与治疗提供理论支持。

总体而言,MOSDNet具有显著的前瞻性和实用性,在人工智能助力医学领域中具有重要示范意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com