分享自:

联邦超声视频与图像联合学习用于乳腺癌诊断

期刊:IEEE Transactions on Medical ImagingDOI:10.1109/TMI.2025.3532474

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


FedBCD:基于联邦学习的超声视频与图像联合学习用于乳腺癌诊断

一、作者与发表信息
本研究由Tianpeng Deng(华南理工大学)、Chunwang Huang(广东省人民医院/南方医科大学)、Ming Cai(广东省人民医院/南方医科大学)等共同完成,通讯作者为Guoqiang Han、Zaiyi Liu、Ying Wang和Chu Han。论文发表于IEEE Transactions on Medical Imaging(2025年6月,第44卷第6期),标题为《FedBCD: Federated Ultrasound Video and Image Joint Learning for Breast Cancer Diagnosis》。研究得到中国国家重点研发计划(2021YFF1201003)、国家自然科学基金(82372044等)及广东省重点实验室项目支持。

二、学术背景
乳腺癌超声诊断依赖图像(静态)和视频(动态)两种模态数据。传统深度学习方法通常单独训练单一模态模型,忽略了多模态联合学习的潜力,且集中式训练存在患者隐私风险。联邦学习(Federated Learning, FL)虽能保护隐私,但面临以下挑战:
1. 维度差异:视频的时序信息与图像的空间特征难以统一建模;
2. 数据异质性:不同机构的设备差异导致数据分布不一致;
3. 聚合公平性:传统联邦学习中数据量大的客户端主导全局模型,而超声视频数据通常稀缺。

为此,研究团队提出FedBCD框架,首次实现隐私保护下的超声视频与图像联合训练,旨在提升乳腺癌诊断性能,尤其关注小规模数据客户端的公平性。

三、研究方法与流程
1. FedBCD框架设计
- 本地训练模型JUVIL
- 采用冻结的ViT(Vision Transformer)骨干网络(预训练于ImageNet)与轻量级可训练适配器(Adapter),通过参数复用降低计算开销。
- 图像分支:在ViT层中添加空间适配器(Spatial Adapter),增强局部特征提取。
- 视频分支:复用ViT的MSA(Multihead Self-Attention)模块权重,新增时序适配器(Temporal Adapter),通过转置输入维度实现时序建模。
- 参数高效性:仅训练适配器(7.10M参数),通信负担较全模型训练降低12倍。

  • 聚合算法FILA
    • Fisher信息矩阵(FIM)量化各客户端对全局模型层的敏感度,敏感度越低则聚合权重越高。
    • 层级自适应聚合:避免传统模型级聚合的偏差,优先整合稳定性高的层(如深层特征)。
    • 个性化模块保留:MLP的上采样层(MLP-up)作为客户端私有模块,提升本地性能。
  1. 实验设置

    • 数据集
      • 视频客户端:TDSC-ABUS(151例超声视频,24帧/例);
      • 图像客户端:BUSI(647例)、GDPH(846例)、SYSUCC(1559例)。
    • 对比方法:包括FedAvg、FedProx、FedRep等9种联邦学习方法,均采用JUVIL骨干网络以保证公平性。
    • 评估指标:准确率(Accuracy)、AUC(Area Under Curve)、MCC(Matthews Correlation Coefficient)。
  2. 工作流程

    • 客户端本地训练:每个客户端使用私有数据更新适配器,计算各层的FIM值并上传至服务器。
    • 服务器聚合:FILA根据FIM动态分配聚合权重,生成全局模型后分发至客户端。
    • 迭代优化:50轮联邦训练,每轮本地训练1个epoch,采用Adam优化器(学习率1e-4)。

四、主要结果
1. 诊断性能提升
- FedBCD在视频客户端TDSC上准确率达73.04%(较基线ViT提升14.37% AUC),图像客户端平均准确率提升4.33%。
- 小规模数据集(如BUSI)受益显著,MCC提升12.73%,证明FILA的公平性设计有效。

  1. 联合训练优势

    • 视频与图像联合训练使图像模型性能提升(如FedProx图像平均准确率从67.69%升至71.87%),表明时序信息可增强空间特征学习。
  2. 效率分析

    • JUVIL仅需10.67M可训练参数(视频)和7.10M(图像),计算开销分别为1037.69 GFLOPs(视频)和206.51 GFLOPs(图像),显著低于传统ViT。

五、结论与价值
1. 科学价值
- 首次提出多模态联邦学习框架FedBCD,解决超声视频与图像联合训练的维度差异与隐私矛盾。
- FILA算法通过FIM引导的层级聚合,为异质数据联邦学习提供了稳定性保障。

  1. 应用价值
    • 可扩展至其他医学影像模态(如CT与MRI联合分析),推动跨机构协作研究。
    • 代码开源(GitHub: tianpeng-deng/fedbcd)促进临床落地。

六、研究亮点
1. 创新方法
- JUVIL通过参数复用的时空适配器统一多模态建模,避免参数爆炸。
- FILA首次将FIM用于联邦学习的层级贡献度评估,突破数据量加权聚合的局限。

  1. 临床意义
    • 为资源有限的医疗机构(如仅拥有视频或图像数据)提供诊断性能提升路径。

七、其他价值
研究团队指出,未来需验证FedBCD在配对多模态数据(同一患者的视频与图像)上的表现,并扩展至更多视频客户端以增强时序模块的泛化性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com