这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Aymen M. Al-Hejri(印度Swami Ramanand Teerth Marathwada University、也门University of Albaydha)、Archana Harsing Sable(印度Swami Ramanand Teerth Marathwada University)等7位作者合作完成,发表于Scientific Reports期刊(2025年,卷15,文章编号18453)。
科学领域:本研究属于医学人工智能(AI)与计算机科学的交叉领域,聚焦于乳腺癌早期预测的算法开发。
研究动机:乳腺癌是全球女性癌症死亡的主要原因之一,早期诊断可显著提高生存率。然而,传统方法依赖影像学检查(如乳腺X线摄影),成本高且存在数据隐私问题。
背景知识:
- 联邦学习(Federated Learning, FL):一种分布式机器学习范式,允许在本地数据上训练模型而无需共享原始数据,解决医疗数据隐私问题。
- 视觉Transformer(Vision Transformer, ViT):基于自注意力机制的深度学习模型,擅长处理高维特征。
- 可解释AI(Explainable AI, XAI):通过LIME(Local Interpretable Model-agnostic Explanations)等技术增强模型透明度,辅助临床决策。
研究目标:开发一种结合联邦学习、ViT和XAI的混合框架(CEET-Fed),通过乳腺癌风险因素实现高精度、隐私保护的预测。
研究对象:
- 数据集:来自也门国家癌症控制基金会(NCCF)的802例患者数据,包含41项风险因素(如BMI、月经史、家族史)和医学影像报告(BI-RADS分类)。最终筛选734例有效数据,分为正常(227例)、良性(409例)、恶性(98例)。
- 数据划分:80%训练集、10%验证集、10%测试集,采用SMOTE(Synthetic Minority Over-sampling Technique)解决类别不平衡问题。
研究流程:
1. 数据预处理:
- 处理缺失值(中位数填充)、异常值修正(基于相似患者特征)。
- 分类特征编码(OrdinalEncoder)和归一化(MinMaxScaler)。
- 特征选择:通过随机森林(Random Forest)筛选重要性>0.011的特征(如年龄、BMI、肿块存在)。
模型开发(分集中式与联邦学习两种场景):
可解释性分析:
结果逻辑链:
1. 数据预处理和特征选择优化了模型输入质量。
2. 混合模型(CNN+ViT)通过融合局部与全局特征提升性能。
3. 联邦学习在保护隐私的同时,通过分布式训练增强模型泛化能力。
科学价值:
- 提出首个结合联邦学习、ViT和XAI的乳腺癌预测框架(CEET-Fed),为多中心医疗协作提供隐私保护解决方案。
- 验证了风险因素与影像数据的互补性,推动“非侵入性筛查”发展。
应用价值:
- 可部署于基层医疗机构,辅助低成本早期筛查。
- XAI解释增强了临床可信度,助力医患共同决策。
(注:全文约2000字,符合要求)