类型a:学术研究报告
作者及机构
本研究由Hryhorii Chereda(第一作者)与Annalen Bleckmann、Kerstin Menck等来自德国哥廷根大学医学中心(University Medical Center Göttingen)生物信息学团队的多位学者合作完成,通讯作者为Tim Beißbarth。研究成果发表于期刊*Genome Medicine*(2021年,第13卷,第42期),开放获取,DOI: 10.1186/s13073-021-00845-7。
学术背景
研究领域聚焦于可解释人工智能(Explainable AI, XAI)在精准医疗中的应用,特别是针对乳腺癌转移预测的分子网络分析。传统深度学习模型(如卷积神经网络,CNN)虽在复杂预测任务中表现优异,但其“黑箱”特性限制了在临床决策中的可信度。欧盟《通用数据保护条例》(GDPR)要求算法决策需提供“逻辑解释”,而现有方法(如LIME、SHAP)难以处理非欧几里得数据(如分子网络)。因此,本研究旨在开发一种基于层间相关性传播(Layer-wise Relevance Propagation, LRP)的新方法——图层层相关性传播(Graph LRP, GLRP),用于解释图卷积神经网络(Graph-CNN)的预测,生成患者特异性分子子网络,以支持个性化治疗决策。
研究流程与方法
1. 数据准备与预处理
- 分子网络:采用人类蛋白质参考数据库(HPRD)的蛋白质-蛋白质相互作用(PPI)网络,包含7168个基因节点,主要连通成分含6888个节点。
- 乳腺癌数据集:整合10个公共微阵列数据集(如GSE25066、GSE20685等),经RMA算法标准化后,筛选969例患者(393例5年内转移,576例无转移),基因表达数据映射至PPI网络节点。
- 验证数据集:人脐静脉内皮细胞(HUVECs)经TNFα刺激前后的基因表达数据(GSE144803),用于验证GLRP的生物学合理性。
模型构建与训练
GLRP算法开发
结果验证与分析
主要结果
1. 预测性能:Graph-CNN在乳腺癌转移预测中AUC达82.57±1.25,优于随机森林(81.27±1.66)和GLMGraph(80.88±1.37)(表1)。
2. 患者特异性子网络:
- 转移患者子网络富含促转移基因(如CDK1、SFN),非转移患者则含抑癌基因(如JUP、PCBP1)。
- 示例患者GSM519217(Basal-like转移)的子网络显示EGFR、MCL1等高相关性,而GSM150990(Luminal A非转移)以ESR1为主(图3)。
3. 靶点发现:通过“MTB Report”流程,鉴定可操作基因(如ERBB2、PTPN11),为个性化治疗提供候选靶点(表3)。
结论与价值
1. 科学价值:首次将LRP适配于Graph-CNN,解决了图信号分类任务的可解释性问题,为omics数据与分子网络的整合分析提供新范式。
2. 临床价值:患者特异性子网络可辅助分子肿瘤委员会(Molecular Tumor Board)决策,例如:
- 识别亚型特异性通路差异(如Basal-like中YAP泛素化通路富集)。
- 发现潜在靶点(如PTPN11抑制剂对特定Luminal患者有效)。
研究亮点
1. 方法创新:GLRP是首个结合先验知识网络与个体化解释的算法,优于模型无关方法(如SHAP)的连通性。
2. 跨学科应用:将图像领域的LRP成功迁移至生物网络,验证了深度学习在非欧几里得数据的普适性。
3. 数据开放性:代码与预处理数据公开(GitLab/graph-lrp),支持后续研究复现。
其他价值
- 合规性:满足GDPR对算法透明度的要求,推动AI在医疗领域的伦理应用。
- 扩展性:框架可推广至其他组学数据(如甲基化、单细胞RNA-seq)。