本文是Lin Zhou等人完成的一项原创性研究,由以下多个单位共同参与完成:University of Science and Technology of China, Nanyang Technological University, Prince Mohammad Bin Fahd University, 合肥市Chaohu University等,主要作者为Lin Zhou和Zhengzhi Zhu,后者均为本文的共同第一作者。这项研究成果发表于《CAAI Transactions on Intelligence Technology》2024年第9卷第6期,并在2024年6月5日被接收,DOI为10.1049/cit2.12395。这项研究的主要目的是探索消化系统肿瘤(Digestive System Tumours, DST)的分类与早晚期诊断技术,通过提出一种新的多组学图转换卷积网络(Multi-Omics Graph Transformer Convolutional Network, MGTNC)实现更加精准的诊断与治疗建议。
消化系统肿瘤包括食道、胃、肝、结直肠以及胰腺等重要器官的肿瘤,在全球范围内,这类肿瘤的发病率和致死率都极高。根据世界卫生组织的统计,2018年全球约记录了350万新病例,这些肿瘤占所有癌症诊断的20%,并导致22.5%的癌症死亡。研究表明,这类肿瘤的精准早期诊断对改善患者监测与治疗有深远意义。多组学(Multi-Omics)技术的飞速发展使得整合基因组、转录组、甲基化组和其他组学数据以提供更多生物学机制的新见解成为可能。然而,对于如何整合多组学数据以提高疾病诊断性能仍然面临挑战。
研究团队提出Multi-Omics Graph Transformer Convolutional Network(MGTNC)方法,通过图神经网络(Graph Neural Networks,GNN)对数据间的关系建模,并结合卷积操作发现特定癌症的分子标志物和肿瘤类型,这为复杂的生物学问题提供了一种新的分析视角。此外,研究还致力于区分消化系统肿瘤的早期与晚期状态,以优化个体化治疗策略,从而降低不必要的经济负担及副作用。
本研究工作分为以下几个阶段:
研究团队从The Cancer Genome Atlas(TCGA)项目收集消化系统肿瘤数据集,涵盖6种癌症类型(结肠腺癌、食管癌、肝细胞癌、胰腺腺癌、直肠腺癌、胃腺癌)及其对应的正常组织。总计样本量为1,471例,其中肿瘤样本占1,413例,正常样本占58例。除此之外,数据还包括mRNA表达数据、miRNA-Seq数据及DNA甲基化数据。临床早晚期的分期标准依据I/II期为早期,III/IV期为晚期。同时,样本预处理包括缺失值填补(通过R的”impute”函数)、低方差特征过滤以及基于梯度提升树模型的特征选择,以获得高质量数据。
为进行后续的分析,研究基于样本的mRNA、miRNA和DNA甲基化数据构造加权样本相似网络,利用余弦相似度计算样本对之间的关系,并设定阈值以确定哪些样本对具有连接。研究中提出了一种用于构建拓扑图的图转换层(Graph Transformer Layer, GTL),通过加权选择多个候选邻接矩阵来生成元路径图,以捕捉原始数据的潜在联系。
在此基础上,研究开发了图卷积网络(Graph Convolutional Networks, GCN)作为特征提取工具。每个GCN层根据邻接矩阵和输入特征矩阵运行卷积操作,生成特征向量用于下游任务。此外,为了从提取的多组学特征中发掘更高级别的关联,研究引入了视图相关性发现网络(View Correlation Discovery Network, VCDN),实现不同组学数据的深度整合。
数据置入模型后,研究通过五折交叉验证、随机数据划分(80%训练集,20%测试集)等方式评价模型性能。主要评价指标包括分类准确率(Acc)、F1分值(F1)和ROC-AUC面积曲线。
研究结果显示,MGTNC模型在消化系统肿瘤分类和早晚期诊断任务中均表现优于现有多种传统或深度学习方法:
肿瘤类型分类:
模型对6种肿瘤类型的准确率均达到了高水平,尤其在容易混淆的结肠腺癌与直肠腺癌,以及食管癌与胃癌的分类中,MGTNC显示了较强的鉴别能力。通过比较Spearman相关性分析、PPI网络、传统CNN模型等多种基线方法,MGTNC在Acc、F1_weighted和F1_macro等指标上均优于对比方法。
早晚期诊断:
对于各个特定类型肿瘤的早晚期分类,MGTNC模型在Acc、F1和AUC上的表现始终最佳。例如结肠腺癌(COAD)的AUC值达到显著高水平,显示整合多组学数据在分期诊断上的有效性。
特征重要性与功能富集分析:
通过基因干扰实验,研究提取了对分类任务贡献较高的重要基因,并进行了功能富集分析(Functional Enrichment Analysis, FEA)。FEA分析结果表明:
模型规则化与超参数的优化:
为实现最佳性能,研究通过Optuna优化框架调整模型包括学习率、GCN层数、隐层单元数等多种关键超参数。实验证明,较优的参数配置显著提升了MGTNC的分类效果。
该研究在方法论和实际应用价值上具有以下亮点: - 方法学创新: 提出的MGTNC利用GTL层与VCDN模块,将多组学数据的横向与纵向关联信息有机结合,弥补了传统方法中对不同组学数据整合不够的不足。 - 诊断性能提升: 在肿瘤类型分类及分期诊断中表现优异,尤其对特定容易混淆的肿瘤类型进行了有效区分,有望在临床上用于辅助诊断。 - 生物机制解释: 抽取的重要基因和通路为理解肿瘤发生提供了新见解,并可能成为癌症干预的潜在靶点。
本文通过提出MGTNC模型,充分挖掘了多组学数据的诊断潜力,为消化系统肿瘤的分类及早晚期诊断提供了新颖的解决方案。然而,研究仍有一定局限,例如多组学数据获取过程中的稀缺性与数据完整性问题,以及模型在多机构、多中心数据上的推广能力。未来的研究方向可包括整合更多类型的组学数据(如影像组学),并改进模型的可解释性,以推动精准肿瘤学的进一步发展。