分享自:

基于去中心化联邦学习的癌症生存预测隐私保护方法

期刊:heliyonDOI:10.1016/j.heliyon.2024.e31873

基于联邦学习的癌症生存预测新方法:ADFed框架的隐私保护与性能突破

作者及发表信息
本研究的通讯作者为安徽农业大学信息与人工智能学院的Qingyong Wang,合作团队来自佛山大学数学与大数据学院(Hua Chai、Yiqian Huang等)及安徽农业大学的农业信息感知与智能计算省级工程研究中心。研究成果发表于Elsevier旗下开放获取期刊*Heliyon*(2024年5月23日在线发布,卷10,文章编号e31873),遵循CC BY-NC-ND 4.0许可协议。


学术背景与研究目标
癌症生存预测是精准医疗的核心目标之一,但传统方法面临两大挑战:
1. 数据碎片化与隐私问题:患者数据分散于不同机构,受《通用数据保护条例》(GDPR)等法规限制,直接共享敏感医疗数据存在法律与伦理风险。
2. 模型性能与可解释性:现有联邦学习(Federated Learning, FDL)方法(如FedAvg、FedProx)依赖中心化服务器,可能引入数据控制偏差,且缺乏对关键生物标志物(如癌症相关基因)的识别能力。

为此,研究团队提出自适应去中心化联邦学习框架(ADFed),旨在通过去中心化架构与正则化方法,实现跨机构数据的安全整合,同时提升预测准确性与基因特征选择的生物学意义。


研究方法与流程
1. 数据收集与预处理
- 数据来源:从TCGA和GEO数据库获取4类癌症(结肠癌、头颈鳞癌、肝癌、卵巢癌)的基因表达数据,样本量总计2764例(如结肠癌603例、肝癌733例)。
- 预处理:基因表达数据经对数转换、中位数填充缺失值,使用R包“limma”校正批次效应。患者按3年生存期分为高风险/低风险组。

2. ADFed框架设计
- 去中心化架构:摒弃传统中心服务器,采用点对点(P2P)通信,各客户端(医疗机构)轮流担任参数聚合节点,通过同步/异步模式更新模型(图1)。
- 隐私保护机制
- 数据匿名化:去除个人标识符,采用假名化技术。
- 加密传输:使用安全协议交换模型参数,避免原始数据泄露。
- 双正则化特征选择
- 客户端采用L2正则化(平滑聚合),服务器端采用L1正则化(生成稀疏基因权重)。
- 关键基因筛选公式:( S(q,k) = |w_k(q)|^2 ),其中( w_k(q) )为第k个客户端的第q个基因权重。

3. 模型优化与验证
- 超参数调优:通过5折交叉验证选择学习率(1e−1至1e−5)、批次大小(32-128)、训练轮次(1000-10000)。
- 对比方法:包括随机森林(RF)、XGBoost、支持向量机(SVM)及联邦学习方法FedProx、FedAvg。
- 评估指标:准确率(ACC)、AUC值、F1分数。


主要研究结果
1. 预测性能优势
ADFed在四类癌症中均表现最佳(表3):
- AUC提升:平均AUC达0.588,较FedAvg(0.578)和FedProx(0.518)显著提高,其中肝癌预测AUC为0.576(FedAvg为0.565)。
- 稳定性:在结肠癌数据中,ADFed的ACC(0.715)和F1分数(0.744)均高于其他方法(如FedAvg ACC=0.708)。

2. 生物标志物发现
- 关键基因鉴定:ADFed结合加权基因共表达网络分析(WGCNA)筛选出51个肝癌相关基因(图4)。
- 已验证基因:如*CYP1A2*(肝药代谢关键酶)、*CYP2E1*(与肝癌进展相关)均被文献支持(表4)。
- 新候选基因:如*MOXD1*在胶质瘤中促凋亡,ADFed首次提示其与肝癌的潜在关联。
- 通路富集:PI3K-AKT、RAS-MAPK等癌症经典通路被显著富集(图4d),验证了结果的生物学合理性。


结论与价值
1. 科学价值
- 提出首个结合去中心化联邦学习与双正则化的癌症预测框架,解决了数据隐私与模型性能的平衡问题。
- 通过可解释特征选择,为癌症机制研究提供了新靶点(如*OXT*在肝癌中的潜在作用)。

  1. 应用前景
    • 适用于多中心医疗协作场景,符合GDPR等法规要求,推动精准医疗数据共享。
    • 代码与数据已公开,便于临床机构部署。

局限性
- 未涵盖影像数据整合,未来需扩展多模态分析。
- 基因特征维度需预先统一,可能损失部分异质性信息。


研究亮点
1. 技术创新
- 去中心化联邦学习架构降低单点故障风险,增强数据主权控制。
- L1/L2正则化联合应用提升基因选择的稀疏性与解释性。

  1. 跨学科意义
    • 为计算生物学与隐私计算的交叉研究提供范式。
    • WGCNA与ADFed的结合开创了联邦学习驱动生物标志物挖掘的新路径。

本研究通过严谨的实验设计与生物验证,为癌症预后研究提供了兼具隐私安全性与科学严谨性的新工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com