分享自:

基于生成深度神经网络的泛消化道癌症生存分析

期刊:biodata miningDOI:10.1186/s13040-025-00426-z

Xu等人于2025年在《Biodata Mining》期刊发表了一项关于消化道癌症(digestive tract cancer, DTC)分子分型与生存分析的研究。该研究由佛山大学数学学院许乐凯、中山大学孙逸仙纪念医院口腔颌面外科兰天骏作为共同第一作者,柴华教授担任通讯作者,合作单位还包括广东省恶性肿瘤表观遗传与基因调控重点实验室等机构。

学术背景
消化道癌症是全球重大健康威胁,2022年数据显示其占新发癌症病例的25.8%和死亡病例的35.4%。传统机器学习方法(如k-means、层次聚类)在处理高维度、非线性基因组数据时存在分型模糊性问题。尽管深度学习技术(如自编码器、生成对抗网络)逐步应用于癌症分型,但现有方法中表示学习与聚类模块往往分离优化,导致性能受限。因此,本研究提出新型生成式深度神经网络GDEC,旨在实现消化道癌症的精准分子分型并挖掘潜在治疗靶点。

研究方法与流程
1. 数据获取与预处理
收集来自TCGA数据库的6类DTC数据集(结肠癌COAD、食道癌ESCA等)及10个公共数据库补充数据集。通过log转换归一化表达数据,剔除缺失值>20%的特征,中位数填补剩余缺失值,并使用R包”limma”消除批次效应。

  1. GDEC网络架构开发
    提出基于图卷积的端到端多任务深度神经网络:
  • 图卷积层(GCN):整合KEGG通路先验知识构建基因连接图,通过邻接矩阵和度矩阵提取拓扑特征(公式1)。
  • 生成对抗模块:包含编码器-解码器-判别器三部分。编码器生成低维表征z,判别器强制特征符合先验分布,损失函数融合重构损失(公式2)、生成器损失(公式3)和判别器损失(公式5)。
  • 聚类模块:采用t-SNE分布(公式8)与目标分布(公式9)计算KL散度损失(公式7)。总损失函数L_GDEC = γL_a + L_c(γ=0.1)。
  1. 特征重要性评估
    采用多分类随机森林(Random Forest)解析黑箱模型,筛选Gini系数>0.2的基因。随后通过6种机器学习算法(CoxBoost、GBM等)构建32种组合模型,选择C-index最优方案鉴定预后相关枢纽基因。

  2. 生物标志物与药物分析

  • 通过TIMER、CIBERSORT等8种算法评估免疫微环境特征
  • 基于CTPR和PRISM数据库筛选潜在治疗药物
  • 使用GSCALite平台分析基因表达与拷贝数变异(CNV)、甲基化的关联

主要结果
1. 分型性能验证
GDEC在6类DTC中鉴定出2-5个亚型(表1),生存差异显著(p<0.01)。其中肝细胞癌(LIHC)分型效果最佳(-log10(p)=3.035),食道癌(ESCA)相对较弱(-log10(p)=0.796)。相较于传统方法(k-means平均-log10(p)=1.035)和深度学习模型(DECC平均-log10(p)=1.813),GDEC表现最优(平均2.142)。

  1. 泛消化道癌分析
    将6类癌症整合为pan-DTC后分出4个亚型(图2c-d):
  • S1亚型(115例)预后最佳,富含抗肿瘤免疫细胞(图3a),显示免疫激活特征
  • S0亚型(373例)肿瘤免疫原性最高(HRD、ITH评分突出,图3f)
  • S3亚型(756例)占比最大,EGFR、STAT3调控子活跃(图3b)
  1. 枢纽基因鉴定
    发现21个与异质性和预后相关的枢纽基因(图5-6):
  • LAMC2、TNFRSF12A等在多数癌组织中高表达
  • DVL3基因表达与CNV正相关(r=0.68)
  • PEA15甲基化水平与mRNA表达呈负相关(r=-0.43)
  • 这些基因显著抑制细胞周期通路(图6b),激活EMT通路
  1. 药物筛选
    靶向分析确定两种潜在治疗药物:
  • 达沙替尼(Dasatinib):靶向SRC家族激酶,CTRP数据库显示敏感(AUC=0.82)
  • YM155:抑制生存素(survivin),PRISM数据库验证有效(p=0.003)

结论与价值
本研究提出首个整合图卷积与生成对抗网络的癌症分型框架GDEC,其创新性体现在:
1. 方法论突破:通过联合优化生成对抗与聚类损失,解决了高维数据非线性分型难题
2. 临床意义:鉴定的21个枢纽基因为泛消化道癌免疫治疗提供新靶点,达沙替尼和YM155的预测拓展了精准治疗选择
3. 技术普适性:框架可扩展至其他癌种的多组学整合分析

研究亮点
1. 首次将图卷积网络与生成对抗学习结合用于癌症分型
2. 发现S1亚型特有的免疫激活微环境特征
3. 通过可解释算法锁定具有表观遗传调控作用的枢纽基因
4. 双数据库交叉验证药物预测可靠性

局限与展望
当前研究未整合表观基因组数据,未来计划引入单细胞测序数据提升模型精度,并深入探究中性粒细胞在肿瘤异质性中的作用机制。该工作的代码已开源(GitHub: starlightyouth/GDEC),为后续研究提供技术支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com