分享自:

基于ImageNet预训练的Mamba-UNet医学图像分割模型

期刊:Springer Nature Switzerland AGDOI:10.1007/978-3-031-72114-4_59

基于Mamba架构的医学图像分割新突破:Swin-UMamba模型研究

作者与发表信息

本研究由Jiarun Liu、Hao Yang等来自中国科学院深圳先进技术研究院、香港大学计算机科学系等机构的联合团队完成,论文发表于2024年的MICCAI会议(Medical Image Computing and Computer Assisted Intervention),收录于Springer出版的LNCS系列第15009卷。

研究背景与目标

科学领域:本研究属于医学图像处理与计算机辅助诊断领域,聚焦医学图像分割任务。医学图像分割是现代临床实践中的关键技术,广泛应用于疾病诊断、治疗方案制定等场景。然而,现有方法在长程依赖建模方面存在显著局限:卷积神经网络(CNN)受限于局部感受野,而视觉Transformer(ViT)则面临二次方计算复杂度的瓶颈。

研究动机:近期提出的Mamba架构通过状态空间模型(SSM)实现了线性复杂度的长序列建模,在自然语言处理中表现出色。但医学图像领域尚未充分探索Mamba架构的潜力,特别是基于ImageNet预训练的有效性尚未得到验证。这成为本研究要解决的核心科学问题。

研究目标:团队旨在开发新型Mamba-based模型Swin-UMamba,通过整合ImageNet预训练优势,提升医学图像分割性能。具体目标包括:(1)验证预训练对Mamba模型的有效性;(2)设计适用于医学图像分割的架构;(3)实现优于现有CNN/ViT/Mamba模型的性能。

研究方法与技术路线

1. 模型架构设计

Swin-UMamba采用编码器-解码器结构,主要包含三大组件:

Mamba-based编码器:基于预训练的VMamba-tiny模型构建,包含5个处理阶段: - 第一阶段:2倍下采样卷积层(保留更多低层细节) - 后续阶段:patch merging层(2倍下采样) + 视觉状态空间(VSS)模块 - VSS模块创新:采用2D选择性扫描(SS2D)机制,通过四个扫描方向(expand操作)处理2D空间信息,再经状态空间模型(S6)处理,最后合并(merge)结果

解码器设计: - 标准版:采用CNN-based上采样块,包含残差连接卷积块和深度监督机制 - 轻量版(Swin-UMamba†):改用Mamba-based解码器,使用patch expanding层和VSS模块,参数减少55%,计算量降低72%

跨层连接:通过skip connection桥接编码器与解码器,整合多尺度特征

2. 预训练整合策略

创新性地将ImageNet预训练权重迁移至医学图像分割任务: - 编码器部分直接加载VMamba-tiny的预训练参数 - 前10个epoch冻结预训练参数,仅训练新增模块 - 采用渐进式微调策略,避免灾难性遗忘

3. 实验验证方案

数据集:选择三个具有代表性的医学图像数据集: 1. AbdomenMRI(腹部MRI):5,615训练样本,13个器官标注 2. Endoscopy(内窥镜):1,800训练样本,7类器械分割 3. Microscopy(显微镜):1,000训练样本,细胞分割任务

基线模型: - CNN类:nnU-Net、SegResNet - Transformer类:UNETR、SwinUNETR、nnFormer - Mamba类:U-Mamba(当前最优Mamba分割模型)

评估指标:Dice相似系数(DSC)、标准化表面距离(NSD)、F1分数

训练细节: - 损失函数:Dice损失 + 交叉熵损失组合 - 优化器:AdamW(weight decay=0.05) - 学习率:初始0.0001,余弦衰减 - 训练周期:100-450 epoch(依数据集调整)

研究结果与发现

1. 整体性能表现

在三个数据集上的综合实验表明: - Swin-UMamba平均DSC达到0.7760(AbdomenMRI)、0.6767(Endoscopy)、0.5806(Microscopy) - 相比最佳基线U-Mamba enc平均提升2.72% - 轻量版Swin-UMamba†在计算量减少72%情况下,性能仍优于所有基线

2. 预训练关键作用

ImageNet预训练带来显著提升: - Swin-UMamba平均性能提升10.60% - 对小样本数据集(Endoscopy/Microscopy)提升尤为显著(>10%) - 训练稳定性增强:未预训练时Swin-UMamba†在AbdomenMRI上无法正常收敛

3. 计算效率优势

  • Swin-UMamba†仅需18.9G FLOPs,显著低于U-Mamba(49.9G FLOPs)
  • 参数数量减少至27M(U-Mamba为67M)
  • 训练速度提升:达到相同性能所需的训练迭代减少90%

4. 可视化分析

如图2所示,Swin-UMamba能准确识别: - 腹部MRI中复杂器官边界 - 内窥镜图像中的手术器械细长结构 - 显微镜下的细胞膜精细结构

研究结论与价值

科学价值

  1. 理论创新:首次证实ImageNet预训练对Mamba架构在医学图像任务中的关键作用,为后续研究提供重要参考
  2. 方法创新:提出SS2D模块有效解决2D图像到1D序列的适配问题
  3. 架构创新:设计首个支持预训练的Mamba医学分割框架,开辟模型迁移新途径

应用价值

  1. 临床诊断:提升分割精度可直接辅助疾病诊断和治疗规划
  2. 部署优势:轻量版模型适合资源受限的医疗环境
  3. 数据效率:预训练策略降低对小样本医学数据的需求

研究亮点

  1. 首项系统性研究:首次全面探索Mamba架构+预训练在医学图像分割中的有效性
  2. 创新架构设计
    • 支持预训练权重的编码器-解码器架构
    • 2D选择性扫描机制解决空间信息保持难题
  3. 显著性能突破:在多个数据集上创造新的state-of-the-art
  4. 实用工程贡献:开源代码和模型(GitHub仓库),促进社区发展

其他重要发现

  1. 模型鲁棒性:在小样本场景下,轻量版Swin-UMamba†有时表现更优,可能与参数减少带来的正则化效应有关
  2. 训练动力学:预训练模型展现出更快的收敛速度和更稳定的训练曲线
  3. 跨模态泛化:在MRI、内窥镜、显微镜三种不同模态数据上均表现优异,显示强大泛化能力

这项研究为医学图像分析领域提供了新的技术路线,通过巧妙结合Mamba架构的长程建模优势和预训练策略的数据效率,实现了性能与效率的双重突破。未来可进一步探索3D医学图像分割、多模态融合等扩展应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com