本研究由Jiarun Liu、Hao Yang等来自中国科学院深圳先进技术研究院、香港大学计算机科学系等机构的联合团队完成,论文发表于2024年的MICCAI会议(Medical Image Computing and Computer Assisted Intervention),收录于Springer出版的LNCS系列第15009卷。
科学领域:本研究属于医学图像处理与计算机辅助诊断领域,聚焦医学图像分割任务。医学图像分割是现代临床实践中的关键技术,广泛应用于疾病诊断、治疗方案制定等场景。然而,现有方法在长程依赖建模方面存在显著局限:卷积神经网络(CNN)受限于局部感受野,而视觉Transformer(ViT)则面临二次方计算复杂度的瓶颈。
研究动机:近期提出的Mamba架构通过状态空间模型(SSM)实现了线性复杂度的长序列建模,在自然语言处理中表现出色。但医学图像领域尚未充分探索Mamba架构的潜力,特别是基于ImageNet预训练的有效性尚未得到验证。这成为本研究要解决的核心科学问题。
研究目标:团队旨在开发新型Mamba-based模型Swin-UMamba,通过整合ImageNet预训练优势,提升医学图像分割性能。具体目标包括:(1)验证预训练对Mamba模型的有效性;(2)设计适用于医学图像分割的架构;(3)实现优于现有CNN/ViT/Mamba模型的性能。
Swin-UMamba采用编码器-解码器结构,主要包含三大组件:
Mamba-based编码器:基于预训练的VMamba-tiny模型构建,包含5个处理阶段: - 第一阶段:2倍下采样卷积层(保留更多低层细节) - 后续阶段:patch merging层(2倍下采样) + 视觉状态空间(VSS)模块 - VSS模块创新:采用2D选择性扫描(SS2D)机制,通过四个扫描方向(expand操作)处理2D空间信息,再经状态空间模型(S6)处理,最后合并(merge)结果
解码器设计: - 标准版:采用CNN-based上采样块,包含残差连接卷积块和深度监督机制 - 轻量版(Swin-UMamba†):改用Mamba-based解码器,使用patch expanding层和VSS模块,参数减少55%,计算量降低72%
跨层连接:通过skip connection桥接编码器与解码器,整合多尺度特征
创新性地将ImageNet预训练权重迁移至医学图像分割任务: - 编码器部分直接加载VMamba-tiny的预训练参数 - 前10个epoch冻结预训练参数,仅训练新增模块 - 采用渐进式微调策略,避免灾难性遗忘
数据集:选择三个具有代表性的医学图像数据集: 1. AbdomenMRI(腹部MRI):5,615训练样本,13个器官标注 2. Endoscopy(内窥镜):1,800训练样本,7类器械分割 3. Microscopy(显微镜):1,000训练样本,细胞分割任务
基线模型: - CNN类:nnU-Net、SegResNet - Transformer类:UNETR、SwinUNETR、nnFormer - Mamba类:U-Mamba(当前最优Mamba分割模型)
评估指标:Dice相似系数(DSC)、标准化表面距离(NSD)、F1分数
训练细节: - 损失函数:Dice损失 + 交叉熵损失组合 - 优化器:AdamW(weight decay=0.05) - 学习率:初始0.0001,余弦衰减 - 训练周期:100-450 epoch(依数据集调整)
在三个数据集上的综合实验表明: - Swin-UMamba平均DSC达到0.7760(AbdomenMRI)、0.6767(Endoscopy)、0.5806(Microscopy) - 相比最佳基线U-Mamba enc平均提升2.72% - 轻量版Swin-UMamba†在计算量减少72%情况下,性能仍优于所有基线
ImageNet预训练带来显著提升: - Swin-UMamba平均性能提升10.60% - 对小样本数据集(Endoscopy/Microscopy)提升尤为显著(>10%) - 训练稳定性增强:未预训练时Swin-UMamba†在AbdomenMRI上无法正常收敛
如图2所示,Swin-UMamba能准确识别: - 腹部MRI中复杂器官边界 - 内窥镜图像中的手术器械细长结构 - 显微镜下的细胞膜精细结构
这项研究为医学图像分析领域提供了新的技术路线,通过巧妙结合Mamba架构的长程建模优势和预训练策略的数据效率,实现了性能与效率的双重突破。未来可进一步探索3D医学图像分割、多模态融合等扩展应用。