基于隐私保护多源数据整合的可解释纵向联邦学习在癌症预后预测中的应用研究
作者及机构
本研究由安徽农业大学信息与人工智能学院的Qingyong Wang独立完成,发表于2025年的《Engineering Applications of Artificial Intelligence》期刊(卷148,文章编号110408)。
学术背景
随着数字医疗进入多模态生物医学数据时代,整合多源组学数据(如mRNA、miRNA和甲基化数据)对癌症预后预测具有重要意义。然而,多机构协作中的隐私保护与数据所有权问题成为关键挑战。传统方法因无法跨平台整合数据且忽视隐私保护,限制了模型的鲁棒性。为此,本研究提出VerFedMEO(Interpretable Vertical Federated Learning with Meta-Optimization),一种结合纵向联邦学习(Vertical Federated Learning, VFL)和元优化的隐私保护框架,旨在实现跨机构多源数据的安全整合与高精度预后预测。
研究流程与方法
1. 数据准备与预处理
- 数据集:从Genomic Data Commons获取四种癌症数据集(KIRC、KIRP、LUSC、HNSC),包含mRNA表达、miRNA探针和甲基化数据,样本量分别为313、256、362和494例。
- 预处理:使用R包tcgabiolinks进行样本相关性分析和基因标准化,通过DESeq2进行差异基因表达分析,过滤低相关性基因。
纵向联邦学习框架
元优化策略
可解释性分析
主要结果
1. 预测性能
- VerFedMEO在四类数据集上均显著优于基线方法(Deep Forest、DNN、HeteroLR、SecureBoost)。例如,KIRP数据集的F1-score达90.84%(比DNN提高9%),HNSC的MCC值提升39%(图2-3)。
- 误差分析显示,MAE和RMSE较其他方法降低20%-30%(图4),证实其鲁棒性。
结论与价值
1. 科学价值:
- 提出首个结合元优化的纵向联邦学习框架,解决多源组学数据整合中的隐私与异质性挑战。
- 通过部分似然函数逼近和梯度公式推导(式1-3),提升了模型收敛精度。
研究亮点
1. 方法创新:
- 元优化自动调参减少人工干预,超参数搜索效率提升50%。
- 加密梯度交换协议兼顾隐私与计算效率,通信开销降低35%。
局限性
当前框架对少量数据集的收敛性依赖较强,未来拟扩展自适应隐私保护技术以覆盖更广泛场景。