本文的研究由Jiecheng Wu、Zhaoliang Chen、Shunxin Xiao、Genggeng Liu、Wenjie Wu 和 Shiping Wang领导完成,第一通讯作者是Shiping Wang,其邮箱是shipingwangphd@163.com。主要研究单位包括福州大学计算机与数据科学学院、福建医科大学附属第一医院、香港浸会大学计算机科学系和厦门理工学院信息与工程学院等。论文发表在《BMC Genomics》期刊(2024年),文章类型为开放获取(Open Access),可以通过以下链接访问:https://doi.org/10.1186/s12864-024-11112-5。
癌症是多种复杂疾病的总称,其亚型(Cancer Subtypes)的识别对早期诊断、预后评估和药物研发具有重要意义。随着高通量生物医学技术的快速发展,多组学数据(Multi-omics Data)逐渐成为癌症研究的重要工具。这些数据包括基因拷贝数变异(Copy Number Variation, CNV)、mRNA表达水平、DNA甲基化(DNA Methylation)等。尽管单独一种组学数据能揭示生物学复杂性的某些方面,但将多种组学数据整合分析已证明能显著提高临床预测的准确性。
然而,组学数据通常表现为高维、多样性和分布不均,数据类型的多样性和噪声(如测量误差、生物数据的内在变异)使得多组学数据的整合和分析面临巨大挑战。基于深度学习的方法近年已展现出较大潜力,例如自编码器(Autoencoder)被用于特征提取,图卷积网络(Graph Convolutional Network, GCN)也广泛应用于非欧几里德数据的建模。有鉴于此,本文提出了一种称为“DeepMOIC”的新框架,利用深度图卷积网络对多组学数据进行整合,从而改进癌症亚型分类的精度和稳定性。
DeepMOIC的研究框架分为以下几个主要步骤: 1. 多组学数据特征提取:使用多层自编码器(Autoencoder)对输入数据进行压缩和表示,以降低维度并减少计算成本。 2. 患者相似性网络(Patient Similarity Network, PSN)构建:利用相似性网络融合算法(Similarity Network Fusion, SNF),基于多组学数据建立患者之间的相似性矩阵。 3. 深度图卷积网络(Deep GCN)分析:通过设计支持深层结构的GCN模块,整合多组学特征矩阵和患者相似性网络,筛选高阶特征进行癌症亚型分类。
研究中应用了四个基准数据集,包括TCGA Pan-Cancer数据集和三个特定癌症亚型数据集(BRCA、KIPAN和LGG)。例如: - TCGA Pan-Cancer数据集:包含9664个样本,涉及RNA-seq表达数据和CNV数据,共28种癌症亚型。 - BRCA数据集:包括乳腺癌的四种亚型的511个样本,数据类型涵盖mRNA、CNV和反向蛋白质组芯片(RPPA)。 - 数据预处理包含缺失值过滤、特征标准化以及60%的样本用于训练,其余用于测试。
基于自编码器,本文设计了逐层降维的特征提取过程。编码器模块通过: [ z_i^{(l)} = σ(W^{(l)}zi^{(l-1)} + b^{(l)}) ] 对输入数据进行压缩,以生成潜在的表示。解码器则通过重建数据以最小化均方误差(MSE)损失: [ L{MSE} = \sum_{i=1}^{n} ||x_i - \hat{x}_i||^2, ] 从而确保多组学特征的有效表示和高效整合。
SNF算法生成不同组学数据的患者相似性矩阵,并通过加权迭代融合,形成最终的相似性网络。具体而言,相似矩阵的计算基础为欧几里德距离(Euclidean Distance)的指数缩放,并将相邻节点信息用于归一化。这种患者相似性矩阵明确了不同样本间的分子特征相似性,为高效分类提供支持。
针对多组学数据复杂性,设计了具备初始残差连接(Initial Residual Connection)和身份映射(Identity Mapping)的深度GCN层,以解决深层模型容易“过平滑”(Over-smoothing)的问题。公式如下: [ h^{(l+1)} = \sigma((1-α)L̃h^{(l)} + αh^{(0)}), ] 其中,( L̃ ) 表示图的归一化拉普拉斯矩阵,自连接允许在特征中保留初始输入信息。此外,通过身份映射调整权重矩阵的衰减因子,使更深的网络能够整合远邻节点的信息。
相比于传统的浅层GCN模型和简单的单组学分析方法,DeepMOIC在处理复杂多组学数据时展现了显著优势。
生存分析
通过对BRCA数据集的生存数据进行分析,DeepMOIC的结果显著优于传统机器学习方法(如SVM、RF等)。通过Kaplan-Meier生存曲线及Log-rank检验,DeepMOIC对亚型预测的准确性进一步得以验证。
特征筛选与生物学意义
利用自编码器从KIPAN数据中特异性提取了135个基因,并进行了富集分析(GO和KEGG)。分析显示,这些基因与细胞增殖、迁移、粘附、癌信号通路(如Wnt信号通路和P53信号通路)密切相关。
参数敏感性分析
实验验证了GCN层数(8-20层)、初始残差比例(α=0.5)以及邻居节点参数(k=20)的敏感性,并找到了每个数据集的最佳配置。
本文的研究创新性地提出了DeepMOIC框架,通过自编码器和深度图卷积网络提高了多组学数据整合的效率和癌症亚型分类的准确性。研究表明,多组学数据融合较单组学分析能提供更全面的癌症生物学洞见。DeepMOIC不仅提升了分类性能,还突出了其特征选择的生物学解释能力,与精确医学的需求高度契合。
未来,该方法可进一步应用于其他复杂性疾病的分型研究,探索更自动化的网络层数优化策略,并扩展至更大规模的多组学数据集,最终为个性化医疗提供更全面的支持。