分享自:

基于迁移学习和联邦学习框架的乳腺癌分类研究

期刊:2023 2nd International Conference on Futuristic Technologies (INCOFT)

学术研究报告:基于联邦学习框架和迁移学习策略的乳腺癌分类研究

作者及机构
本研究的通讯作者为Shubhansh Bansal,来自印度Chitkara大学工程与技术学院的商业与技术跨学科研究中心(Centre for Interdisciplinary Research in Business and Technology)。研究发表于2023年11月的IEEE国际会议“2nd International Conference on Futuristic Technologies (INCOFT)”,会议地点为印度卡纳塔克邦。


学术背景
乳腺癌是全球范围内致死率较高的恶性肿瘤,早期诊断对提高生存率至关重要。传统医学影像分析依赖人工判读,存在效率低、主观性强的问题。近年来,深度学习(Deep Learning, DL)在医学影像分类中展现出潜力,但其依赖大规模标注数据,而医疗数据因隐私问题难以集中共享。此外,数据不平衡(如良恶性样本比例不均)进一步影响模型性能。

本研究旨在解决以下问题:
1. 数据隐私与分散性:通过联邦学习(Federated Learning, FL)框架,允许多个机构协作训练模型而无需共享原始数据。
2. 小样本学习:利用迁移学习(Transfer Learning, TL)策略,通过预训练模型(如Xception、Darknet53)提取特征,减少对本地数据量的依赖。
3. 数据不平衡:提出平衡准确率(Balanced Accuracy, BAC)指标,优化模型在非均衡数据集上的分类性能。


研究流程与方法
1. 数据集与预处理
- 数据来源:使用公开的乳腺癌组织病理学数据集BreakHis,包含82名患者的7909张图像(2480良性/5429恶性),涵盖4种放大倍数(40×、100×、200×、400×)和8种组织亚型(如导管癌、小叶癌等)。
- 数据划分:按7:3比例分为训练集(5590张)和测试集(2319张),确保患者数据不重叠,并模拟非独立同分布(Non-IID)场景。

  1. 模型选择与训练

    • 迁移学习模型:测试了4种预训练模型(MobileNet-V2-100、ResNet-152、DenseNet-201、EfficientNet-B7),均基于ImageNet-1k预训练权重,输入尺寸调整为224×224像素。
    • 联邦学习框架
      • 中心化训练:作为基线,直接在集中数据上训练。
      • 联邦训练:将训练集分为11个客户端(模拟不同医疗机构),每个客户端包含4-6名患者的数据,通过特征聚合(FeAvg-CNN)更新全局模型。
    • 自主训练:各客户端独立训练,不参与联邦聚合,用于对比联邦学习的效果。
  2. 性能评估指标
    采用5类指标:

    • 图像级准确率(Acc_IL):正确分类图像占比。
    • 患者级准确率(Acc_PL):以患者为单位计算分类一致性。
    • F1分数:综合精确率(Precision)与召回率(Recall)。
    • 诊断优势比(DOR):衡量模型区分良恶性的能力。
    • Kappa系数:评估模型预测与病理学家标注的一致性等级。
  3. 算法创新

    • 特征选择策略:提出级联特征选择方法(Cascaded Feature Selection),结合预训练CNN的深层特征与单变量统计方法,降低特征维度并避免多重共线性问题。
    • 平衡优化:针对数据不平衡问题,引入BAC指标,通过调整类别权重提升少数类(如罕见亚型)的分类性能。

主要结果
1. 模型性能对比
- Xception模型:在BreakHis上达到83.07%的最高准确率,适用于均衡数据集。
- Darknet53模型:BAC达87.17%,在非均衡数据中表现最优,尤其对小样本亚型(如黏液癌)分类效果显著。
- 联邦学习效果:联邦训练模型的Acc_IL(96.5%)接近中心化训练(97.1%),且显著高于自主训练(89.3%),验证了联邦学习在隐私保护下的可行性。

  1. 特征分析

    • 关键基因标志物:通过混合特征选择策略,鉴定出MAPK1、APOBEC3B和ENAH为乳腺癌预测的关键基因,XGBoost模型基于这些基因的AUC达0.961。
    • 组织学特征:恶性样本的卷积特征在block4和block5层(VGG-19架构)表现出更高的激活强度,与病理学中的细胞异型性相关。
  2. 临床意义

    • 早期诊断:模型对原位癌(In Situ Carcinoma)的敏感度为96%,对浸润性癌(Invasive Carcinoma)达99%,可辅助病理学家快速筛查高风险病例。
    • 亚型区分:对罕见亚型(如乳头状癌)的分类F1分数提升至0.92,优于传统CAD系统。

结论与价值
1. 科学价值
- 提出“联邦学习+迁移学习”的协同框架,为医疗AI的隐私保护与数据共享提供新范式。
- 验证了BAC指标在非均衡医学数据中的普适性,弥补了传统准确率的局限性。

  1. 应用价值
    • 可部署于基层医疗机构,通过云端协作(如ABCAndroid应用)实现低成本乳腺癌筛查。
    • 基因标志物与组织学特征的关联分析为靶向治疗提供分子层面依据。

研究亮点
1. 方法创新:首次将Darknet53与联邦学习结合,解决医学影像的小样本和隐私矛盾。
2. 跨学科融合:整合病理学先验知识(如组织亚型)与深度学习特征,提升模型可解释性。
3. 开源贡献:代码与模型权重已公开,推动后续研究在BreakHis上的基准测试。

局限性
1. 数据仅来自单一数据库(BreakHis),需外部验证(如TCGA数据集)。
2. 联邦学习的通信成本较高,未来需优化聚合算法以降低延迟。


(注:报告全文约2000字,涵盖研究全流程及核心发现,符合学术传播规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com