分享自:

基于风险因素的乳腺癌预测的可解释联邦视觉变换器混合框架

期刊:Scientific ReportsDOI:10.1038/s41598-025-96527-0

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于可解释联邦学习与视觉Transformer的乳腺癌预测框架研究

1. 作者与发表信息

本研究由Aymen M. Al-Hejri(印度Swami Ramanand Teerth Marathwada University、也门University of Albaydha)、Archana Harsing Sable(印度Swami Ramanand Teerth Marathwada University)等7位作者合作完成,发表于Scientific Reports期刊(2025年,卷15,文章编号18453)。

2. 学术背景

科学领域:本研究属于医学人工智能(AI)与计算机科学的交叉领域,聚焦于乳腺癌早期预测的算法开发。
研究动机:乳腺癌是全球女性癌症死亡的主要原因之一,早期诊断可显著提高生存率。然而,传统方法依赖影像学检查(如乳腺X线摄影),成本高且存在数据隐私问题。
背景知识
- 联邦学习(Federated Learning, FL):一种分布式机器学习范式,允许在本地数据上训练模型而无需共享原始数据,解决医疗数据隐私问题。
- 视觉Transformer(Vision Transformer, ViT):基于自注意力机制的深度学习模型,擅长处理高维特征。
- 可解释AI(Explainable AI, XAI):通过LIME(Local Interpretable Model-agnostic Explanations)等技术增强模型透明度,辅助临床决策。
研究目标:开发一种结合联邦学习、ViT和XAI的混合框架(CEET-Fed),通过乳腺癌风险因素实现高精度、隐私保护的预测。

3. 研究流程与方法

研究对象
- 数据集:来自也门国家癌症控制基金会(NCCF)的802例患者数据,包含41项风险因素(如BMI、月经史、家族史)和医学影像报告(BI-RADS分类)。最终筛选734例有效数据,分为正常(227例)、良性(409例)、恶性(98例)。
- 数据划分:80%训练集、10%验证集、10%测试集,采用SMOTE(Synthetic Minority Over-sampling Technique)解决类别不平衡问题。

研究流程
1. 数据预处理
- 处理缺失值(中位数填充)、异常值修正(基于相似患者特征)。
- 分类特征编码(OrdinalEncoder)和归一化(MinMaxScaler)。
- 特征选择:通过随机森林(Random Forest)筛选重要性>0.011的特征(如年龄、BMI、肿块存在)。

  1. 模型开发(分集中式与联邦学习两种场景):

    • 集中式学习
      • 传统机器学习:测试LightGBM、XGBoost等7种模型,最优模型(Random Forest)准确率达91.89%。
      • 深度学习
      • 单模型:VGG16、ResNet50、Xception,其中ResNet50准确率最高(94.59%)。
      • 特征融合模型:结合VGG16和ResNet50的高层特征,准确率提升至95.95%。
      • 混合模型(CEET):集成CNN特征与ViT的自注意力机制,准确率达97.30%。
    • 联邦学习
      • 3个客户端独立训练本地模型,通过10轮权重聚合更新全局模型(CEET-Fed)。
      • 采用TensorFlow Federated库实现,保护数据隐私的同时解决数据异构性问题。
  2. 可解释性分析

    • 使用LIME技术解释模型预测,例如:
      • 二元分类中,“腋窝肿块”对“异常”预测贡献最大(权重0.81)。
      • BI-RADS分类中,“肿块存在”与BI-RADS评分强相关。

4. 主要结果

  • 集中式学习
    • 混合模型CEET在二元、多分类(正常/良性/恶性)、BI-RADS分类任务中的准确率分别为98.65%、97.30%、95.95%,AUC达0.970(95% CI: 0.917–1)。
    • 传统机器学习中,Random Forest表现最佳(AUC 0.955)。
  • 联邦学习
    • CEET-Fed在10轮聚合后,二元分类准确率提升至98.65%,优于集中式模型。
    • 多分类任务中,AUC达0.981,验证了联邦学习的有效性。
  • 可解释性:LIME成功识别关键风险因素(如BMI、月经初潮年龄),与临床认知一致。

结果逻辑链
1. 数据预处理和特征选择优化了模型输入质量。
2. 混合模型(CNN+ViT)通过融合局部与全局特征提升性能。
3. 联邦学习在保护隐私的同时,通过分布式训练增强模型泛化能力。

5. 结论与价值

科学价值
- 提出首个结合联邦学习、ViT和XAI的乳腺癌预测框架(CEET-Fed),为多中心医疗协作提供隐私保护解决方案。
- 验证了风险因素与影像数据的互补性,推动“非侵入性筛查”发展。
应用价值
- 可部署于基层医疗机构,辅助低成本早期筛查。
- XAI解释增强了临床可信度,助力医患共同决策。

6. 研究亮点

  • 方法创新
    • 首次在乳腺癌预测中集成ViT与联邦学习,解决数据孤岛问题。
    • 提出动态特征融合策略(CNN局部特征+ViT全局注意力)。
  • 性能突破
    • 联邦学习场景下准确率超越集中式模型(98.65% vs. 97.30%)。
    • AUC置信区间显著优于既往研究(如Yala et al.的0.67)。
  • 数据贡献
    • 公开也门地区乳腺癌风险因素数据集,填补区域数据空白。

7. 其他价值

  • 局限性:样本量较小(734例),未来需扩大数据验证泛化性。
  • 未来方向:结合乳腺影像数据(如超声、MRI)开发多模态模型。

(注:全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com