Xu等人于2025年在《Biodata Mining》期刊发表了一项关于消化道癌症(digestive tract cancer, DTC)分子分型与生存分析的研究。该研究由佛山大学数学学院许乐凯、中山大学孙逸仙纪念医院口腔颌面外科兰天骏作为共同第一作者,柴华教授担任通讯作者,合作单位还包括广东省恶性肿瘤表观遗传与基因调控重点实验室等机构。
学术背景
消化道癌症是全球重大健康威胁,2022年数据显示其占新发癌症病例的25.8%和死亡病例的35.4%。传统机器学习方法(如k-means、层次聚类)在处理高维度、非线性基因组数据时存在分型模糊性问题。尽管深度学习技术(如自编码器、生成对抗网络)逐步应用于癌症分型,但现有方法中表示学习与聚类模块往往分离优化,导致性能受限。因此,本研究提出新型生成式深度神经网络GDEC,旨在实现消化道癌症的精准分子分型并挖掘潜在治疗靶点。
研究方法与流程
1. 数据获取与预处理
收集来自TCGA数据库的6类DTC数据集(结肠癌COAD、食道癌ESCA等)及10个公共数据库补充数据集。通过log转换归一化表达数据,剔除缺失值>20%的特征,中位数填补剩余缺失值,并使用R包”limma”消除批次效应。
特征重要性评估
采用多分类随机森林(Random Forest)解析黑箱模型,筛选Gini系数>0.2的基因。随后通过6种机器学习算法(CoxBoost、GBM等)构建32种组合模型,选择C-index最优方案鉴定预后相关枢纽基因。
生物标志物与药物分析
主要结果
1. 分型性能验证
GDEC在6类DTC中鉴定出2-5个亚型(表1),生存差异显著(p<0.01)。其中肝细胞癌(LIHC)分型效果最佳(-log10(p)=3.035),食道癌(ESCA)相对较弱(-log10(p)=0.796)。相较于传统方法(k-means平均-log10(p)=1.035)和深度学习模型(DECC平均-log10(p)=1.813),GDEC表现最优(平均2.142)。
结论与价值
本研究提出首个整合图卷积与生成对抗网络的癌症分型框架GDEC,其创新性体现在:
1. 方法论突破:通过联合优化生成对抗与聚类损失,解决了高维数据非线性分型难题
2. 临床意义:鉴定的21个枢纽基因为泛消化道癌免疫治疗提供新靶点,达沙替尼和YM155的预测拓展了精准治疗选择
3. 技术普适性:框架可扩展至其他癌种的多组学整合分析
研究亮点
1. 首次将图卷积网络与生成对抗学习结合用于癌症分型
2. 发现S1亚型特有的免疫激活微环境特征
3. 通过可解释算法锁定具有表观遗传调控作用的枢纽基因
4. 双数据库交叉验证药物预测可靠性
局限与展望
当前研究未整合表观基因组数据,未来计划引入单细胞测序数据提升模型精度,并深入探究中性粒细胞在肿瘤异质性中的作用机制。该工作的代码已开源(GitHub: starlightyouth/GDEC),为后续研究提供技术支持。