分享自:

基于图卷积神经网络和层相关传播的乳腺癌生物标志物稳定特征选择方法

期刊:Artificial Intelligence in MedicineDOI:10.1016/j.artmed.2024.102840

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


作者及机构

本研究由Hryhorii Chereda(德国哥廷根大学医学中心医学生物信息学)、Andreas Leha(哥廷根大学医学统计与生物信息学核心设施)和Tim Beißbarth(哥廷根大学数据科学研究所)共同完成,发表于期刊Artificial Intelligence in Medicine(2024年,卷151,文章编号102840)。


学术背景

研究领域:生物医学信息学与人工智能交叉领域,聚焦于乳腺癌生物标志物(biomarker)发现的特征选择(feature selection)方法
研究动机:高通量基因表达数据(high-throughput gene expression data)已广泛用于癌症预后预测,但现有方法筛选的基因标志物存在不稳定性和生物学解释性不足的问题。例如,不同研究针对相同乳腺癌亚型获得的基因列表重叠率极低,且部分基因与疾病机制的关联性存疑。
目标:提出一种结合图卷积神经网络(Graph Convolutional Neural Network, GCNN)逐层相关性传播(Layer-wise Relevance Propagation, LRP)的特征选择方法(GCNN+LRP),通过整合分子网络先验知识(prior knowledge molecular networks),提升基因标志物的稳定性、分类性能影响及生物学解释性


研究流程与方法

1. 数据与网络准备

  • 蛋白质相互作用网络(PPI):使用人类蛋白质参考数据库(HPRD)的PPI网络,将基因表达数据映射至网络节点,构建无向图。仅保留最大连通分量(8469个基因)。
  • 乳腺癌数据集:基因表达数据经GETMM标准化和log2转换,与PPI网络匹配。数据集来自TCGA-BRCA(样本量未明确,但基于10折交叉验证设计)。

2. 特征选择方法对比

研究对比了以下方法:
- GCNN+LRP:基于PPI网络结构的图卷积神经网络,通过LRP解释模型决策,聚合个体解释生成特征集。
- GCNN+SHAP:相同模型,但使用SHAP(Shapley Additive Explanations)解释方法。
- 传统方法:多层感知机(MLP)+LRP/SHAP、随机森林(RF)+SHAP、RF标准特征评分(基于基尼不纯度)。

3. 评估指标

  • 稳定性:通过10折交叉验证生成10组特征集,计算Jaccard相似度(公式7-8)。
  • 分类性能影响:扰动(置零)测试集特征,观察分类性能(F1加权分数)下降幅度。
  • 生物学解释性
    • 连通性:在HPRD PPI子网中统计特征基因的连通组件数(越少解释性越强)。
    • 通路富集分析:使用KEGG数据库和Fisher精确检验,分析特征基因的癌症相关通路富集性。

4. 实验设计

  • 模型训练:GCNN、MLP、RF在相同数据上训练,LRP/SHAP应用于相同模型。
  • 特征聚合:按Marcílio & Eler(2020)方法,对每类样本的解释矩阵取绝对值并求均值,生成特征重要性排名。

主要结果

1. 稳定性

  • GCNN+LRP稳定性最高(Jaccard相似度显著优于其他方法),尤其在特征集大小为200时,平均连通组件数仅11个,远低于其他方法(>122个)。
  • RF类方法(RF+SHAP、RF标准评分)稳定性次之,但随特征数量增加而下降。
  • SHAP方法(无论GCNN或MLP)稳定性最低,且不受先验网络影响。

2. 分类性能影响

  • SHAP方法(如GCNN+SHAP)扰动后性能下降最显著,表明其筛选的特征对分类贡献最大。
  • LRP方法性能下降较缓和,可能与特征偏向高表达基因(与表达量相关性0.47)及网络连通性有关。

3. 生物学解释性

  • 通路富集:GCNN+LRP特征显著富集于癌症相关通路(如“蛋白聚糖在癌症中”“雌激素信号通路”),且富集显著性(-log10(FDR))最高。
  • 对比其他方法:RF类方法富集通路较少(如“p53信号通路”),MLP+LRP则富集于非癌症通路(如“核糖体”)。

结论与价值

  1. 方法论贡献:提出GCNN+LRP作为乳腺癌生物标志物发现的优选方法,其结合分子网络先验知识,解决了传统方法的不稳定性问题。
  2. 科学意义:证实网络嵌入与解释性AI的结合可提升特征选择的生物学合理性,为其他癌症研究提供范式。
  3. 应用价值:稳定且可解释的基因标志物有助于临床预后模型的开发和靶点发现。

研究亮点

  1. 创新方法:首次系统评估LRP与SHAP在特征选择中的差异,揭示LRP对网络结构的依赖性。
  2. 多维度评估:综合稳定性、性能影响、解释性三指标,为特征选择方法比较提供标准化框架。
  3. 开源工具:研究代码公开(GitLab: Graph Layer-wise Relevance Propagation),推动方法复用。

其他价值

  • 局限性:LRP可能偏好高表达基因,未来需结合其他解释方法(如Integrated Gradients)优化。
  • 扩展方向:探索其他网络类型(如代谢通路)或解释方法(如GNNExplainer)的适用性。

(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com