分享自:

基于自适应联邦学习的医疗行业5.0多学科癌症疾病分类

期刊:scientific reportsDOI:10.1038/s41598-024-68919-1

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于自适应联邦学习的多学科癌症疾病分类:医疗行业5.0中的应用

作者及机构
本研究由Tahir Abbas(巴基斯坦国立商业经济学院计算机科学学院)、Areej Fatima(巴基斯坦拉合尔驻军大学计算机科学系)、Tariq Shahzad(巴基斯坦COMSATS大学计算机科学系)、Meshal Alharbi(沙特阿拉伯Prince Sattam bin Abdulaziz大学计算机科学系)、Muhammad Adnan Khan(韩国嘉泉大学人工智能与软件学院)及Arfan Ahmed(卡塔尔威尔康奈尔医学院AI精准健康中心)合作完成。研究发表于Scientific Reports期刊,2024年卷14期,文章编号18643,DOI链接为https://doi.org/10.1038/s41598-024-68919-1。


学术背景

研究领域
本研究属于医疗人工智能(AI in Healthcare)联邦学习(Federated Learning, FL)的交叉领域,聚焦于多学科癌症的早期诊断与分类。

研究动机
癌症是全球第二大死因,2020年新增病例1920万例,死亡995万例。传统医疗数据集中处理存在隐私泄露风险,而联邦学习通过分布式训练模型,无需共享原始数据,符合医疗行业对隐私保护的需求。然而,现有联邦学习框架在异构医疗环境中存在模型收敛速度慢、精度不足等问题。

研究目标
1. 提出一种自适应联邦学习(Adaptive Federated Learning, AFL)框架,优化多中心医疗数据的协同训练;
2. 实现脑癌、肾癌、乳腺癌的高精度分类(目标准确率>90%);
3. 验证该框架在医疗行业5.0(Healthcare Industry 5.0)中的实用性。


研究流程与方法

1. 数据融合与预处理

  • 数据集:融合3类癌症(脑癌、肾癌、乳腺癌)的7个子类型共35,000张图像(每类5,000张),来源包括公开数据集(如Kaggle)及私有数据。
  • 预处理
    • RGB转灰度图以降低计算成本;
    • 统一调整为28×28×1像素尺寸;
    • 数据分割:70%训练集(24,500张)、30%验证集(10,500张)。

2. 自适应联邦学习框架设计

核心架构
- 分层结构:中央服务器(协调全局模型)、智能医院(本地训练)、智能设备(数据采集与初步处理)。
- 自适应机制:各医院根据本地数据分布动态调整模型参数,通过多任务优化问题建模分配数据集子集。

算法创新
- 分布式优化:将数据集划分为与设备数量匹配的子集,每个设备选择最优子集进行本地迭代(公式1-3);
- 损失函数设计:采用加权平均损失(公式2)和随机梯度下降(SGD)优化;
- 通信优化:仅传输模型参数而非原始数据,减少带宽占用。

3. 模型训练与验证

  • 实验环境:MATLAB 2020a,配备Intel i7处理器、18GB RAM。
  • 模型结构:卷积神经网络(CNN)包含输入层(28×28×1)、3个卷积层(ReLU激活+最大池化)、全连接层(Softmax分类)。
  • 训练参数:学习率0.001,动量0.9,批量大小128,10个全局轮次(每轮含10次本地迭代)。

主要结果

  1. 分类性能

    • AFL模型在训练集上平均准确率达89.83%,验证集83.29%,显著高于传统联邦学习(FL)的87.3%和80%。
    • 混淆矩阵分析:脑癌子类型(如脑胶质瘤)分类准确率最高(99.74%),肾癌因图像复杂度略低(95.79%)。
  2. 隐私与效率

    • AFL通过本地训练和参数聚合,避免了数据集中存储,满足GDPR等隐私法规要求;
    • 通信开销降低40%,收敛速度提升20%。
  3. 跨中心验证

    • 模拟3家医院(各2台设备)的异构环境,AFL在设备算力不均时仍保持稳定性(图4-5)。

结论与价值

科学价值
- 提出首个面向医疗行业5.0的自适应联邦学习框架,解决了数据孤岛与隐私保护的矛盾;
- 通过多任务优化和动态分配策略,提升了模型在异构数据下的泛化能力。

应用价值
- 可部署于智能医院系统,实现癌症早期筛查(如通过MRI或CT图像的实时分析);
- 为其他分布式医疗AI(如电子健康记录分析)提供技术参考。


研究亮点

  1. 方法创新:首次将AFL与CNN结合,针对多学科癌症分类任务;
  2. 数据规模:融合7类癌症子型的35,000张图像,覆盖临床常见类型;
  3. 可扩展性:框架支持动态加入新医院或设备,适应医疗生态的持续扩展。

其他价值

  • 开源代码与数据集(部分)已公开,促进学术复现;
  • 提出的隐私保护机制可为金融、物联网等领域的分布式学习提供借鉴。

(报告字数:约1,500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com