这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
FedBCD:基于联邦学习的超声视频与图像联合学习用于乳腺癌诊断
一、作者与发表信息
本研究由Tianpeng Deng(华南理工大学)、Chunwang Huang(广东省人民医院/南方医科大学)、Ming Cai(广东省人民医院/南方医科大学)等共同完成,通讯作者为Guoqiang Han、Zaiyi Liu、Ying Wang和Chu Han。论文发表于IEEE Transactions on Medical Imaging(2025年6月,第44卷第6期),标题为《FedBCD: Federated Ultrasound Video and Image Joint Learning for Breast Cancer Diagnosis》。研究得到中国国家重点研发计划(2021YFF1201003)、国家自然科学基金(82372044等)及广东省重点实验室项目支持。
二、学术背景
乳腺癌超声诊断依赖图像(静态)和视频(动态)两种模态数据。传统深度学习方法通常单独训练单一模态模型,忽略了多模态联合学习的潜力,且集中式训练存在患者隐私风险。联邦学习(Federated Learning, FL)虽能保护隐私,但面临以下挑战:
1. 维度差异:视频的时序信息与图像的空间特征难以统一建模;
2. 数据异质性:不同机构的设备差异导致数据分布不一致;
3. 聚合公平性:传统联邦学习中数据量大的客户端主导全局模型,而超声视频数据通常稀缺。
为此,研究团队提出FedBCD框架,首次实现隐私保护下的超声视频与图像联合训练,旨在提升乳腺癌诊断性能,尤其关注小规模数据客户端的公平性。
三、研究方法与流程
1. FedBCD框架设计
- 本地训练模型JUVIL:
- 采用冻结的ViT(Vision Transformer)骨干网络(预训练于ImageNet)与轻量级可训练适配器(Adapter),通过参数复用降低计算开销。
- 图像分支:在ViT层中添加空间适配器(Spatial Adapter),增强局部特征提取。
- 视频分支:复用ViT的MSA(Multihead Self-Attention)模块权重,新增时序适配器(Temporal Adapter),通过转置输入维度实现时序建模。
- 参数高效性:仅训练适配器(7.10M参数),通信负担较全模型训练降低12倍。
实验设置
工作流程
四、主要结果
1. 诊断性能提升
- FedBCD在视频客户端TDSC上准确率达73.04%(较基线ViT提升14.37% AUC),图像客户端平均准确率提升4.33%。
- 小规模数据集(如BUSI)受益显著,MCC提升12.73%,证明FILA的公平性设计有效。
联合训练优势
效率分析
五、结论与价值
1. 科学价值:
- 首次提出多模态联邦学习框架FedBCD,解决超声视频与图像联合训练的维度差异与隐私矛盾。
- FILA算法通过FIM引导的层级聚合,为异质数据联邦学习提供了稳定性保障。
六、研究亮点
1. 创新方法:
- JUVIL通过参数复用的时空适配器统一多模态建模,避免参数爆炸。
- FILA首次将FIM用于联邦学习的层级贡献度评估,突破数据量加权聚合的局限。
七、其他价值
研究团队指出,未来需验证FedBCD在配对多模态数据(同一患者的视频与图像)上的表现,并扩展至更多视频客户端以增强时序模块的泛化性。