分享自:

基于隐私保护多源数据集成和可解释垂直联邦学习的预后预测

期刊:engineering applications of artificial intelligenceDOI:10.1016/j.engappai.2025.110408

基于隐私保护多源数据整合的可解释纵向联邦学习在癌症预后预测中的应用研究

作者及机构
本研究由安徽农业大学信息与人工智能学院的Qingyong Wang独立完成,发表于2025年的《Engineering Applications of Artificial Intelligence》期刊(卷148,文章编号110408)。

学术背景
随着数字医疗进入多模态生物医学数据时代,整合多源组学数据(如mRNA、miRNA和甲基化数据)对癌症预后预测具有重要意义。然而,多机构协作中的隐私保护与数据所有权问题成为关键挑战。传统方法因无法跨平台整合数据且忽视隐私保护,限制了模型的鲁棒性。为此,本研究提出VerFedMEO(Interpretable Vertical Federated Learning with Meta-Optimization),一种结合纵向联邦学习(Vertical Federated Learning, VFL)和元优化的隐私保护框架,旨在实现跨机构多源数据的安全整合与高精度预后预测。

研究流程与方法
1. 数据准备与预处理
- 数据集:从Genomic Data Commons获取四种癌症数据集(KIRC、KIRP、LUSC、HNSC),包含mRNA表达、miRNA探针和甲基化数据,样本量分别为313、256、362和494例。
- 预处理:使用R包tcgabiolinks进行样本相关性分析和基因标准化,通过DESeq2进行差异基因表达分析,过滤低相关性基因。

  1. 纵向联邦学习框架

    • 模型架构:假设机构A(无标签,持有miRNA/甲基化数据)与机构B(有标签,持有mRNA数据)协作训练。通过加密梯度交换(如式2-3所示)更新局部模型参数,避免原始数据共享。
    • 隐私机制:中央服务器生成公私钥对(PK/SK),客户端使用同态加密传输中间结果(如[[𝐶𝑇𝐴]]和[[𝐶𝑇𝐵]]),服务器解密后返回聚合参数。
  2. 元优化策略

    • 目标:通过双层优化(式5)自动学习超参数θ,提升模型泛化能力。
    • 实现:采用高斯过程(Gaussian Process, GP)拟合元数据集(式4),通过期望改进函数(Expected Improvement, EI,式9-10)平衡探索与开发,动态调整超参数。
  3. 可解释性分析

    • 使用SHAP(Shapley Additive Explanations)解析关键基因贡献,例如在KIRC数据中识别到线粒体基因MT-ND4与呼吸链复合物组装相关(图5)。

主要结果
1. 预测性能
- VerFedMEO在四类数据集上均显著优于基线方法(Deep Forest、DNN、HeteroLR、SecureBoost)。例如,KIRP数据集的F1-score达90.84%(比DNN提高9%),HNSC的MCC值提升39%(图2-3)。
- 误差分析显示,MAE和RMSE较其他方法降低20%-30%(图4),证实其鲁棒性。

  1. 生物学发现
    • 关键基因鉴定:如LUSC中的hsa-mir-30e(调控miRNA加工)和HNSC中的KRT14(上皮细胞骨架蛋白),为临床靶点筛选提供依据(图5)。
    • p值分布验证所有结果具有统计学显著性(图6)。

结论与价值
1. 科学价值
- 提出首个结合元优化的纵向联邦学习框架,解决多源组学数据整合中的隐私与异质性挑战。
- 通过部分似然函数逼近和梯度公式推导(式1-3),提升了模型收敛精度。

  1. 应用价值
    • 为跨机构医疗协作提供安全高效的解决方案,临床可基于SHAP结果定制个性化治疗方案。
    • 代码与数据可公开申请,推动可重复研究。

研究亮点
1. 方法创新
- 元优化自动调参减少人工干预,超参数搜索效率提升50%。
- 加密梯度交换协议兼顾隐私与计算效率,通信开销降低35%。

  1. 跨学科意义
    • 融合生物信息学、隐私计算与深度学习,为癌症预后预测设立新范式。

局限性
当前框架对少量数据集的收敛性依赖较强,未来拟扩展自适应隐私保护技术以覆盖更广泛场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com