这篇文章标题为“Classifying breast cancer subtypes on multi-omics data via sparse canonical correlation analysis and deep learning”,由Yiran Huang, Pingfan Zeng和Cheng Zhong共同完成,作者主要隶属于广西大学计算机与电子信息学院以及广西多媒体通信网络技术重点实验室,并于2024年发表在学术期刊《BMC Bioinformatics》中(DOI: https://doi.org/10.1186/s12859-024-05749-y)。
本研究聚焦于乳腺癌亚型分类领域。这是一个重要的医学研究方向,因为乳腺癌是女性癌症死亡的第二大原因,仅次于肺癌。乳腺癌是高度异质性的疾病,包含不同的生物学亚型,这些亚型在临床、病理和分子特征上差异明显,对疾病的预后及治疗建议也具有不同的意义。精准的乳腺癌亚型分类对个性化医学以及疾病预后具有重要意义。
随着高通量测序技术的发展,生物数据的规模和复杂性快速增长,因此以多组学数据为基础的研究引起了广泛关注。多组学(multi-omics)数据结合了基因表达(mRNA)、DNA甲基化(DNA methylation)等多层次的生物信息,为更全面地描述乳腺癌亚型提供了可能。现有的乳腺癌分类研究主要分为两类方法:基于单组学分析的研究和基于整合多组学数据的研究。
基于单组学数据的研究虽然能够获取特定层次的疾病相关信息,但通常难以揭示不同层次分子间的相互作用。而基于多组学整合的研究则显示出更高的分类准确性,常用的方法包括基于数据拼接、集成学习以及知识驱动的方法。然而,这些方法在面临“高维小样本”(large p and small n)问题、数据异质性以及未能充分利用多组学互补信息等挑战时,仍存在诸多不足。
因此,本研究旨在通过创新计算框架DSCCN(Differential Sparse Canonical Correlation Analysis Network)克服上述问题,并进一步提高乳腺癌亚型分类的性能。
本研究提出了一个三步式的工作流程,用以分析来自TCGA数据库的乳腺癌多组学数据(包含mRNA表达数据和DNA甲基化数据),并实现基于多任务深度学习模型的乳腺癌亚型分类。以下为具体流程:
获取乳腺癌患者的多组学数据,其中包括4种主流乳腺癌亚型:Basal-like、HER2-enriched、Luminal A和Luminal B。首先,通过t检验和fold change方法对样本数据进行差异表达分析(Differential Analysis, DA),以筛选出差异表达基因(Differentially Expressed Genes, DE基因)。在mRNA数据中,共筛选出3692个DE基因,其中3440个为高表达基因,252个为低表达基因;而在DNA甲基化数据中,筛选出4679个DE基因。
为了直观呈现差异基因表达水平的特征,研究绘制了Volcano Plot,显示健康组与乳腺癌组之间上调和下调基因的分布情况。
为了挖掘多组学数据之间的线性相关性,作者采用了一种改进的稀疏典型相关分析模型,即FGL-SCCA(Fused Group Lasso-Sparse Canonical Correlation Analysis)。该模型使用FGL和GGL两种惩罚方法分别对mRNA和DNA甲基化数据进行规范化加权,旨在揭示mRNA和DNA甲基化之间的双变量关联。
研究通过计算Pearson相关系数度量基因间相关性,并选择高相关性的特征构建关联矩阵。随后,研究进一步筛选出前m1个mRNA基因和n1个DNA甲基化基因,这些特征被用于后续的机器学习训练。
在深度学习部分,作者设计了一种带有注意力机制(attention mechanism)的多任务深度神经网络(DNN),以捕捉多组学数据中的非线性关系。网络结构包括三部分: 1. 模块编码器(Module Encoder): 构建全连接层,根据数据特征生成模块矢量; 2. 模块注意力机制(Module Attention Mechanism): 利用余弦相似度评估不同组学模块间的相似性,并赋予不同权重; 3. 多任务学习(Multi-task Learning): 按亚型进行专门训练,并生成最终分类概率。
研究对各乳腺癌亚型的二分类任务进行评估,包括Basal vs HER2、Basal vs Luminal A等6个子任务。DSCCN表现出显著的分类能力,其F1分数在所有组别中均优于现有方法(如DIABLO、DeepMO等)。
例如,在“Basal vs Luminal A”的任务中,DSCCN以0.982的准确性(accuracy)和0.997的AUC达到了优秀的分类性能。
在多分类任务中,对四种乳腺癌亚型同时分类,DSCCN取得了最高准确性(0.906)和F1-macro值(0.922),显著优越于其他方法。研究展示的混淆矩阵表明,DSCCN准确分类了Basal亚型(错误率=0),并对样本量最少的HER2亚型也表现出较强的分类能力。
通过去除差异分析和稀疏典型相关分析等模块,研究验证了DSCCN中各个模块的重要性。实验显示,每个模块的引入均能显著提升分类性能,其中注意力机制在DNN中的引入效果尤为显著。
对筛选出的基因进行进一步分析,研究发现多个高相关基因与乳腺癌已有文献报道一致。例如,CDKN2A基因此前被证明与乳腺癌病理学相关,而SOX10在三阴性乳腺癌中高表达,是明确诊断乳腺癌分型的重要标志。此外,多数筛选出的高相关DNA甲基化基因(如MED27, GNG7)与乳腺癌的发生和进展具有显著联系,这验证了DSCCN在重要特征识别中的高效性。
本文提出的DSCCN框架整合了差异表达分析、稀疏典型相关分析和深度学习,能够在乳腺癌亚型分类中达到高精准度及稳定性。其科学价值体现在以下方面: 1. 科学价值: 提供了一种高效的多组学数据整合方法,揭示了跨组学的线性与非线性关联; 2. 临床应用价值: 提高了乳腺癌亚型分类的准确性,为精准医学和个性化治疗提供了支持; 3. 基因特征挖掘能力: 鉴别出了新型乳腺癌关键基因,为后续生物学研究提供了重要线索。
此外,尽管DSCCN已在乳腺癌亚型分类上表现出优越性,文章也指出模型在样本不均衡数据上仍面临挑战。因此,未来研究将扩展至对非编码基因(如miRNA和lncRNA)的分析,利用这些新增数据进一步提高模型鲁棒性与分类能力。
这项研究为乳腺癌亚型分类提供了新的计算框架,不仅在理论上具有创新性,也为临床应用和医学研究提供了重要参考。