基于迁移学习和联邦学习框架的乳腺癌分类研究

分享自：
基于迁移学习和联邦学习框架的乳腺癌分类研究

信息科学
生物医学工程
期刊:2023 2nd International Conference on Futuristic Technologies (INCOFT)
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：基于联邦学习框架和迁移学习策略的乳腺癌分类研究
作者及机构
 本研究的通讯作者为Shubhansh Bansal，来自印度Chitkara大学工程与技术学院的商业与技术跨学科研究中心（Centre for Interdisciplinary Research in Business and Technology）。研究发表于2023年11月的IEEE国际会议“2nd International Conference on Futuristic Technologies (INCOFT)”，会议地点为印度卡纳塔克邦。
学术背景
 乳腺癌是全球范围内致死率较高的恶性肿瘤，早期诊断对提高生存率至关重要。传统医学影像分析依赖人工判读，存在效率低、主观性强的问题。近年来，深度学习（Deep Learning, DL）在医学影像分类中展现出潜力，但其依赖大规模标注数据，而医疗数据因隐私问题难以集中共享。此外，数据不平衡（如良恶性样本比例不均）进一步影响模型性能。
本研究旨在解决以下问题：
 1. 数据隐私与分散性：通过联邦学习（Federated Learning, FL）框架，允许多个机构协作训练模型而无需共享原始数据。
 2. 小样本学习：利用迁移学习（Transfer Learning, TL）策略，通过预训练模型（如Xception、Darknet53）提取特征，减少对本地数据量的依赖。
 3. 数据不平衡：提出平衡准确率（Balanced Accuracy, BAC）指标，优化模型在非均衡数据集上的分类性能。
研究流程与方法
 1. 数据集与预处理
 - 数据来源：使用公开的乳腺癌组织病理学数据集BreakHis，包含82名患者的7909张图像（2480良性/5429恶性），涵盖4种放大倍数（40×、100×、200×、400×）和8种组织亚型（如导管癌、小叶癌等）。
 - 数据划分：按7:3比例分为训练集（5590张）和测试集（2319张），确保患者数据不重叠，并模拟非独立同分布（Non-IID）场景。
模型选择与训练
迁移学习模型：测试了4种预训练模型（MobileNet-V2-100、ResNet-152、DenseNet-201、EfficientNet-B7），均基于ImageNet-1k预训练权重，输入尺寸调整为224×224像素。
 
联邦学习框架：
 中心化训练：作为基线，直接在集中数据上训练。
 
联邦训练：将训练集分为11个客户端（模拟不同医疗机构），每个客户端包含4-6名患者的数据，通过特征聚合（FeAvg-CNN）更新全局模型。
 
自主训练：各客户端独立训练，不参与联邦聚合，用于对比联邦学习的效果。
 
性能评估指标
 采用5类指标：
图像级准确率（Acc_IL）：正确分类图像占比。
 
患者级准确率（Acc_PL）：以患者为单位计算分类一致性。
 
F1分数：综合精确率（Precision）与召回率（Recall）。
 
诊断优势比（DOR）：衡量模型区分良恶性的能力。
 
Kappa系数：评估模型预测与病理学家标注的一致性等级。
 
算法创新
特征选择策略：提出级联特征选择方法（Cascaded Feature Selection），结合预训练CNN的深层特征与单变量统计方法，降低特征维度并避免多重共线性问题。
 
平衡优化：针对数据不平衡问题，引入BAC指标，通过调整类别权重提升少数类（如罕见亚型）的分类性能。
 
主要结果
 1. 模型性能对比
 - Xception模型：在BreakHis上达到83.07%的最高准确率，适用于均衡数据集。
 - Darknet53模型：BAC达87.17%，在非均衡数据中表现最优，尤其对小样本亚型（如黏液癌）分类效果显著。
 - 联邦学习效果：联邦训练模型的Acc_IL（96.5%）接近中心化训练（97.1%），且显著高于自主训练（89.3%），验证了联邦学习在隐私保护下的可行性。
特征分析
关键基因标志物：通过混合特征选择策略，鉴定出MAPK1、APOBEC3B和ENAH为乳腺癌预测的关键基因，XGBoost模型基于这些基因的AUC达0.961。
 
组织学特征：恶性样本的卷积特征在block4和block5层（VGG-19架构）表现出更高的激活强度，与病理学中的细胞异型性相关。
 
临床意义
早期诊断：模型对原位癌（In Situ Carcinoma）的敏感度为96%，对浸润性癌（Invasive Carcinoma）达99%，可辅助病理学家快速筛查高风险病例。
 
亚型区分：对罕见亚型（如乳头状癌）的分类F1分数提升至0.92，优于传统CAD系统。
 
结论与价值
 1. 科学价值
 - 提出“联邦学习+迁移学习”的协同框架，为医疗AI的隐私保护与数据共享提供新范式。
 - 验证了BAC指标在非均衡医学数据中的普适性，弥补了传统准确率的局限性。
应用价值
 可部署于基层医疗机构，通过云端协作（如ABCAndroid应用）实现低成本乳腺癌筛查。
 
基因标志物与组织学特征的关联分析为靶向治疗提供分子层面依据。
 
研究亮点
 1. 方法创新：首次将Darknet53与联邦学习结合，解决医学影像的小样本和隐私矛盾。
 2. 跨学科融合：整合病理学先验知识（如组织亚型）与深度学习特征，提升模型可解释性。
 3. 开源贡献：代码与模型权重已公开，推动后续研究在BreakHis上的基准测试。
局限性
 1. 数据仅来自单一数据库（BreakHis），需外部验证（如TCGA数据集）。
 2. 联邦学习的通信成本较高，未来需优化聚合算法以降低延迟。
（注：报告全文约2000字，涵盖研究全流程及核心发现，符合学术传播规范。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问