本研究题为“Multi-omics integration method based on attention deep learning network for biomedical data classification”,由Ping Gong、Lei Cheng、Zhiyuan Zhang等人完成。主要作者隶属于School of Medical Imaging, Xuzhou Medical University, Xuzhou, China,以及Department of Radiation Oncology, Affiliated Hospital of Xuzhou Medical University, Xuzhou, China。该研究发表在《Computer Methods and Programs in Biomedicine》期刊,第231期(2023年),文章编号107377。
随着高通量测序(High-throughput Sequencing)技术的发展,大量多组学数据(Multi-omics Data,如mRNA表达、DNA甲基化、miRNA表达数据等)的获取成为可能。这些数据反映了患者的多方面特征,为全面分析人类疾病的生物学过程提供了基础。然而,传统的单组学分析在处理复杂疾病(例如癌症)时,其精度和适用性有限。相比之下,多组学数据整合通过全面视角为疾病预测、分型等任务提供了显著提升。
尽管多组学整合在疾病分析中展现了潜力,但现有的基于深度学习(Deep Learning,DL)的多组学数据整合大多局限于数据输入空间或特征空间的简单拼接,忽略了组学内部的患者相关性以及跨组学的关联性。
本研究旨在开发一种新颖的基于注意力机制(Attention Mechanism)深度学习网络的多组学整合方法,以解决当前方法的不足,并实现对生物医学数据的高效分类。
该研究提出的模型名为“Multi-omics Attention Deep Learning Network”(MOADLN)。其核心特点是利用自注意力机制(Self-Attention, SA)学习组学数据内部的患者相关性,同时通过多组学相关性发现网络(Multi-omics Correlation Discovery Network, MOCDN)在标签空间中建模跨组学的关联性。模型以端到端(end-to-end)的方式完成生物医学数据分类任务。具体流程如下:
数据预处理与降维: 对每种组学数据(mRNA、DNA甲基化、miRNA)采用三层全连接层(Fully-Connected Layers)结合自注意力机制进行降维。该过程提取每种组学的显著特征并构建患者相关性网络。
自注意力机制的应用: 以降维后的特征为基础,通过计算查询矩阵、键矩阵与值矩阵(Query, Key, Value Matrices),生成患者之间的相似度权重。再通过多头注意力机制(Multi-Head Attention, MHA)增强模型的学习能力。
初始分类结果生成: 利用每种组学数据的降维特征,通过全连接层得出初始类别标签预测。
跨组学相关性学习: 初始分类结果通过MOCDN模块进一步整合。MOCDN通过生成跨组学发现张量(Cross-Omics Discovery Tensor),建模各组学之间的交叉相关性。最终输出用于分类的高效标签分布。
模型训练与优化: 对自注意力模块采用L2范数损失,对MOCDN模块采用交叉熵损失(Cross-Entropy Loss),并在整体模型中通过加权的方法平衡各损失函数。
研究使用了两个公开数据集——ROS/MAP和BRCA数据集:
ROS/MAP数据集: 包含351名患者,其中169例阿尔茨海默病(Alzheimer’s Disease, AD)患者与182例正常对照(Normal Control, NC)。每位患者提供mRNA、DNA甲基化及miRNA三种组学数据,各维度均为100。
BRCA数据集: 包括875名乳腺癌患者,分为五种亚型(如Basal、LumA、LumB等)。同样包含上述三种组学数据,特征维数分别为1000(mRNA)、1000(DNA甲基化)及503(miRNA)。
通过PyTorch框架实现MOADLN,并在ROS/MAP和BRCA数据集上进行评估。实验采用70:30的比例划分训练集和测试集并进行5次随机实验。
比较实验中,研究将MOADLN与多个基准模型(KNN、SVM、LASSO、随机森林(RF)、传统全连接网络(FNN)、MORONET等)进行性能评估,指标包括准确率(Accuracy, ACC)、F1-score及AUC。
模型性能比较: MOADLN在ROS/MAP和BRCA数据集上的分类性能均优于基准模型。例如,在ROS/MAP数据集上,其AUC达到90.44%,明显高于其他方法(如MORONET的87.34%)。BRCA数据集上的ACC为82.97%,亦优于所有对比模型。
多组学整合的有效性: 单独处理mRNA、DNA甲基化或miRNA数据的效果均低于多组学整合。这表明MOADLN在充分利用各组学数据特性,提升分类性能方面表现优异。
消融实验分析: 删除自注意力机制(SA)或MOCDN模块会显著降低模型的分类效果。这表明两者分别在学习患者相关性和跨组学关联性中不可或缺。
通用性验证: 在KIRC和KIRP数据集上的验证实验显示,MOADLN在不同疾病及多组学数据集上均具有卓越表现。
生物标志物识别: 通过特征重要性分析,MOADLN识别出与阿尔茨海默病和乳腺癌相关的关键生物标志物。例如,PLA2G3基因与阿尔茨海默病的氧化应激死亡相关;EDA2R基因被发现与乳腺癌无转移生存率相关。
MOADLN提出了一种新颖的多组学深度学习整合框架,其通过SA机制提取患者内部相关性,结合MOCDN增强跨组学关联性学习,在生物医学数据分类任务中展现了卓越的性能。这项研究不仅增强了多组学数据整合在疾病分型中的技术水平,还为阿尔茨海默病和乳腺癌的重要生物标志物识别提供了新的思路。
方法创新性: MOADLN首次结合自注意力机制与MOCDN,在标签空间中建模跨组学关联性,克服了传统方法的局限性。
性能卓越性: 在多个公开数据集上的实验表明,MOADLN在分类性能上显著优于现有方法。
生物标志物探索: 研究识别出的部分生物标志物得到文献支持,显示了模型在生物研究领域的实用性。
未来研究将尝试整合多模态数据(如临床数据、影像数据)与多组学数据,进一步拓展人类疾病的综合分析能力。此外,还将优化模型以适应更多种类的数据类型和复杂场景。