基于图神经网络的Cox比例风险模型增强及其在癌症预后中的应用
一、研究背景与学科前沿
癌症预后分析一直是医学领域的核心研究方向。近年来,随着高通量测序技术(high-throughput sequencing technologies)的广泛应用,科学家们得以深入探索癌症患者的分子生物标志物(biomarker)和临床特征,从而帮助临床医生更准确地评估患者的生存风险,制定个体化治疗策略。传统的 Cox 比例风险模型(Cox proportional hazards model)作为经典的生存分析工具,因其优秀的统计基础和适应性而被广泛应用于癌症预后研究。
然而,随着深度学习(Deep Learning, DL)以及多组学(omics)数据的引入,科学家们逐步认识到传统 Cox 模型在特征提取和复杂关系建模方面的不足。许多基于深度学习的方法往往侧重于特征抽取或仅用简单的全连接层做风险评分,且这些方法普遍存在特征可解释性较弱的难题(即“黑箱”问题)。此外,大部分已有方法未能充分挖掘患者间的相似性关系,忽略了个体间异质性的潜在规律,这限制了模型的临床价值和科学解释力。
为了解决上述问题,近年出现了图神经网络(Graph Neural Networks, GNNs)在癌症预后分析中的先行探索。GNN能够整合患者间的复杂关系结构,为预后模型赋予结构化信息处理能力,与生物网络、患者相似性网络等高维关系数据天然兼容。然而,多数已有的 GNN 研究仍存在特征解释能力有限、评分机制“黑箱化”、风险因子不透明等不足,难以真正实现面向临床落地的精准与解释性兼具的风险分层工具。
面对这一学科瓶颈,本文团队提出了新一代的可解释 GNN 预后分析算法——Cox-SAGE。该方法从临床多源异构信息出发,创新性地构建患者相似性图谱,以图卷积方式接入 Cox 模型风险函数,并提出参数解释机制与双指标基因重要度量工具,为癌症生存分析迈出“黑箱”到“白盒”转型的重要一步。
二、论文来源与研究团队
本研究论文题为 “Cox-SAGE: enhancing Cox proportional hazards model with interpretable graph neural networks for cancer prognosis”,作者包括 Ruijun Mao、Li Wan、Minghao Zhou、Dongxi Li 等,单位均隶属于山西省太原市的 Taiyuan University of Technology(太原理工大学)人工智能学院与计算机科学与技术学院。该研究于2025年发表于国际知名期刊《Briefings in Bioinformatics》,并被 Oxford University Press(牛津大学出版社)收录,是癌症生存分析与人工智能交叉领域的重要进展。该文已开放源代码,相关数据及复现脚本均可在 GitHub(https://github.com/beeeginner/cox-sage)获取。
三、研究流程精解
1. 研究总体设计
Cox-SAGE 的完整研究流程主要包括三大模块:①患者相似性图构建与特征提取;②可解释图神经网络预后模型的搭建与训练;③预后相关基因挖掘与解析。作者不仅聚焦肝细胞癌(LIHC),还在包括肺腺癌、结直肠癌等 TCGA(The Cancer Genome Atlas)七个大队列基础上进行了系统性测试。
1.1 患者异构临床信息整合及相似性图谱构建
各大肿瘤队列的临床数据涵盖年龄、性别、种族、肿瘤分期、组织学分型等指标。由于临床数据中既包含有序型、名义型,也包含数值型与二元型属性,作者专门设计了混合属性距离度量算法(Algorithm 1),对不同类型特征进行统一归一化、加权处理,计算患者对的多元距离/相似度,最终依据设定阈值(采用统计学上四分位数和四分位范围组合)筛选高相似度患者对,建立患者节点与边构成的无向图(Patients’ Similarity Graph)。
1.2 基因表达特征选取与图嵌入
每个患者节点进一步嵌入基于转录组(RNA-seq)蛋白编码基因表达量特征(log2 原始计数),统一保留蛋白编码类基因(共19938个),形成高维表达特征向量(每个样本约二维特征达2万维)。临床与基因数据严控缺失值,采用众数/随机森林模型插补少量缺失,极端缺失样本剔除,保证数据清洁。
1.3 Cox-SAGE 图神经网络预后模型构建
作者以 GraphSAGE 卷积操作为本体设计(引自 Hamilton 等人提出的 GraphSAGE 算法),模型各层结构包括节点自有特征和邻域特征的加权线性聚合。每层映射参数均为可学习权重,无激活函数,保证输出的严格线性结构,力求保有 Cox 模型可解释性。
多层网络设计形式为:
- 第一层:自身特征+相邻节点特征(均值)线性映射+偏置项;
- 多层递归:每层输出继续叠加邻域信息传递;
- 最终通过线性变换输出风险得分(proportional hazards),接入负对数偏部分似然损失函数(Negative Partial Log-Likelihood),以 Adam 优化器训练,加入权重衰减防过拟合。
1.4 解释性参数推导与基因危害指标设计
针对深度模型“黑箱”难题,作者将梯度分析与链式法则引入每一层参数解释,严格推出任一基因表达变化对风险评分的直接影响量:对于一层模型,输出直接由模型权重 α(自身特征)与 β(邻域特征)线性加权;多层模型则为参数矩阵链式传递后的线性组合。
进而创新提出双指标重要性评判策略:
- MHZ(Mean Hazard Ratio, 平均风险比):模拟扣掉某基因,观察总体风险得分上升量,量化低表达与高预后风险的关系;
- RMHZ(Reciprocal of Mean Hazard Ratio, 平均风险比倒数):定量高表达有利/不利风险。
通过全集样本交叉计算上述指标,并对风险高低排序,实现从两种互补视角发现不同表达背景下的关键预后基因。
1.5 实证评估与对标实验:
全流程在 TCGA 七类癌症队列(LIHC、LUAD、COAD等)开展,数据表1、表2详细罗列各肿瘤类型样本数、生存结局差异及临床特征。全流程严格控制训练集、验证集、测试集比例,支持五折交叉验证、多随机种子实验增强鲁棒性。同时,与主流竞品(GraphSurv, LAGPROG, GGNN, AutoSurv, Cox-KAN, Cox-EN, Cox-AE)全流程复现实验对比(实验复现代码详见 GitHub),主评测指标为 Harrell’s C-index(广泛认证的生存模型性能评价标准)。
2. 主要实验结果与数据解读
2.1 各队列模型性能对比
表3清晰显示,Cox-SAGE 在所有癌症队列下均优于或持平于主流预后模型。以肝细胞癌(LIHC)为例,Cox-SAGE 两层模型 c-index 达0.782,显著优于Cox-AE(0.563)、COX-KAN(0.627)等方法。且多层模型(2或4层)普遍超过一层模型,创新结构带来性能提升。
2.2 预后风险分组与生存差异
作者以 LIHC 队列为典型,以模型输出进行中位分割,将患者分为高低风险组,采用 Kaplan-Meier 生存曲线+log-rank检验进行显著性分析。实验显示,高低风险组生存曲线高度分离,所有模型 log-rank 检验均有极高统计学显著性(p<0.005),证实模型输出具有强临床分层判别力。
2.3 预后基因挖掘及可视化分析
在 LIHC 队列上,作者以三种深度(1, 2, 4层)Cox-SAGE 模型提取参数,分别计算每个基因的 MHZ 与 RMHZ,然后以大于中位数标准筛选交集,最终在19938个基因中筛得重要基因各约2450个(分别为低表达高风险类2456、高表达高风险类2487)。以 CD69 等高表达高风险基因为例,作者给出了基因表达变化影响风险得分的等高线可视图,极大地提升了模型的可解释性。
进一步,作者遴选了20个与 HCC 预后最密切相关的代表性基因(见表4),经文献检索核查,发现有17个与肝癌已知发病机制密切相关,3个与其他肿瘤有关。这不仅为基本研究提供了全新候选基因,也为临床转化筛选新潜在治疗靶点打下基础。
3. 结论、科学及应用价值
作者提出的 Cox-SAGE 模型系统性解决了深度学习下癌症生存分析领域的“可解释性困境”,在模型设计、参数推导、风险指标提炼等方面均取得突出创新。模型不仅显著提升了生存分析准确率和稳定性,更通过理论推导实现了对关键危险因子的定量解释,兼具科学可解释性与临床应用前景。
尤其值得一提的是,Cox-SAGE 的方法体系可广泛适用于多组学数据、异质临床指标及多样肿瘤类型,不仅可笼罩目前主流人群队列及组织基因资料,对于未来各种复杂场景下的疾病风险预测与生物标志物筛选也具有重要借鉴意义。
四、研究亮点与独特创新
- 创新型患者相似性图构建方法:面向真实临床异质数据,开发混合属性距离测算算法,大幅提升网络结构对个体间差异的捕捉力。
- 深度可解释图神经网络结构设计:放弃传统“黑箱化”神经网络,采用全线性、无激活函数结构,使得参数与风险具备一一映射关系,结果高度可解释。
- 发明性基因危险度双指标 MHZ / RMHZ:为预后基因重要性提供双重视角,对低表达高风险、或高表达高风险两类中心问题统一刻画。
- 多层次整合组学与临床信息:无缝兼容大规模蛋白编码基因表达数据,支持多癌种、多类型组学信息的泛化评估。
- 开源与复现:作者全面公开数据、代码及复现实验流程,极大助力学界与产业界应用与分布式迭代。
五、其他有价值内容
- 研究还细致比较了各类经典/前沿模型,并以多个随机种子与交叉验证方式提升结果稳健性和统计学可信度。
- 原始数据及模型参数多平台开放(GitHub、Kaggle、Zenodo),极大推动后续科研者数据复用与创新延展。
- 研究获得山西省基础研究项目资助,体现了山西地区在医学人工智能方向的强劲学科建设实力。
六、结语
Cox-SAGE 预示着将来肿瘤分层诊疗与预后个体化“大数据+AI”时代的主流趋势。其方法论和结果不仅是生存分析领域的一次重大跨越,也是将深度学习可解释性推向新高度的范例。未来该框架有望在更广泛疾病场景、临床实际和生物医学基础研究中产生持续影响。