基于ImageNet预训练的Mamba-UNet医学图像分割模型

分享自：
基于ImageNet预训练的Mamba-UNet医学图像分割模型

生物医学工程
人工智能
医学
信息科学
计算机科学
期刊:Springer Nature Switzerland AGDOI:10.1007/978-3-031-72114-4_59
【点击此处】阅读全文、收藏及针对性提问
基于Mamba架构的医学图像分割新突破：Swin-UMamba模型研究作者与发表信息本研究由Jiarun Liu、Hao Yang等来自中国科学院深圳先进技术研究院、香港大学计算机科学系等机构的联合团队完成，论文发表于2024年的MICCAI会议（Medical Image Computing and Computer Assisted Intervention），收录于Springer出版的LNCS系列第15009卷。
研究背景与目标科学领域：本研究属于医学图像处理与计算机辅助诊断领域，聚焦医学图像分割任务。医学图像分割是现代临床实践中的关键技术，广泛应用于疾病诊断、治疗方案制定等场景。然而，现有方法在长程依赖建模方面存在显著局限：卷积神经网络（CNN）受限于局部感受野，而视觉Transformer（ViT）则面临二次方计算复杂度的瓶颈。
研究动机：近期提出的Mamba架构通过状态空间模型（SSM）实现了线性复杂度的长序列建模，在自然语言处理中表现出色。但医学图像领域尚未充分探索Mamba架构的潜力，特别是基于ImageNet预训练的有效性尚未得到验证。这成为本研究要解决的核心科学问题。
研究目标：团队旨在开发新型Mamba-based模型Swin-UMamba，通过整合ImageNet预训练优势，提升医学图像分割性能。具体目标包括：(1)验证预训练对Mamba模型的有效性；(2)设计适用于医学图像分割的架构；(3)实现优于现有CNN/ViT/Mamba模型的性能。
研究方法与技术路线1. 模型架构设计Swin-UMamba采用编码器-解码器结构，主要包含三大组件：
Mamba-based编码器：基于预训练的VMamba-tiny模型构建，包含5个处理阶段： - 第一阶段：2倍下采样卷积层（保留更多低层细节） - 后续阶段：patch merging层（2倍下采样） + 视觉状态空间（VSS）模块 - VSS模块创新：采用2D选择性扫描（SS2D）机制，通过四个扫描方向（expand操作）处理2D空间信息，再经状态空间模型（S6）处理，最后合并（merge）结果
解码器设计： - 标准版：采用CNN-based上采样块，包含残差连接卷积块和深度监督机制 - 轻量版（Swin-UMamba†）：改用Mamba-based解码器，使用patch expanding层和VSS模块，参数减少55%，计算量降低72%
跨层连接：通过skip connection桥接编码器与解码器，整合多尺度特征
2. 预训练整合策略创新性地将ImageNet预训练权重迁移至医学图像分割任务： - 编码器部分直接加载VMamba-tiny的预训练参数 - 前10个epoch冻结预训练参数，仅训练新增模块 - 采用渐进式微调策略，避免灾难性遗忘
3. 实验验证方案数据集：选择三个具有代表性的医学图像数据集： 1. AbdomenMRI（腹部MRI）：5,615训练样本，13个器官标注 2. Endoscopy（内窥镜）：1,800训练样本，7类器械分割 3. Microscopy（显微镜）：1,000训练样本，细胞分割任务
基线模型： - CNN类：nnU-Net、SegResNet - Transformer类：UNETR、SwinUNETR、nnFormer - Mamba类：U-Mamba（当前最优Mamba分割模型）
评估指标：Dice相似系数（DSC）、标准化表面距离（NSD）、F1分数
训练细节： - 损失函数：Dice损失 + 交叉熵损失组合 - 优化器：AdamW（weight decay=0.05） - 学习率：初始0.0001，余弦衰减 - 训练周期：100-450 epoch（依数据集调整）
研究结果与发现1. 整体性能表现在三个数据集上的综合实验表明： - Swin-UMamba平均DSC达到0.7760（AbdomenMRI）、0.6767（Endoscopy）、0.5806（Microscopy） - 相比最佳基线U-Mamba enc平均提升2.72% - 轻量版Swin-UMamba†在计算量减少72%情况下，性能仍优于所有基线
2. 预训练关键作用ImageNet预训练带来显著提升： - Swin-UMamba平均性能提升10.60% - 对小样本数据集（Endoscopy/Microscopy）提升尤为显著（>10%） - 训练稳定性增强：未预训练时Swin-UMamba†在AbdomenMRI上无法正常收敛
3. 计算效率优势Swin-UMamba†仅需18.9G FLOPs，显著低于U-Mamba（49.9G FLOPs）
参数数量减少至27M（U-Mamba为67M）
训练速度提升：达到相同性能所需的训练迭代减少90%
4. 可视化分析如图2所示，Swin-UMamba能准确识别： - 腹部MRI中复杂器官边界 - 内窥镜图像中的手术器械细长结构 - 显微镜下的细胞膜精细结构
研究结论与价值科学价值理论创新：首次证实ImageNet预训练对Mamba架构在医学图像任务中的关键作用，为后续研究提供重要参考
方法创新：提出SS2D模块有效解决2D图像到1D序列的适配问题
架构创新：设计首个支持预训练的Mamba医学分割框架，开辟模型迁移新途径
应用价值临床诊断：提升分割精度可直接辅助疾病诊断和治疗规划
部署优势：轻量版模型适合资源受限的医疗环境
数据效率：预训练策略降低对小样本医学数据的需求
研究亮点首项系统性研究：首次全面探索Mamba架构+预训练在医学图像分割中的有效性
创新架构设计： 支持预训练权重的编码器-解码器架构
2D选择性扫描机制解决空间信息保持难题
显著性能突破：在多个数据集上创造新的state-of-the-art
实用工程贡献：开源代码和模型（GitHub仓库），促进社区发展
其他重要发现模型鲁棒性：在小样本场景下，轻量版Swin-UMamba†有时表现更优，可能与参数减少带来的正则化效应有关
训练动力学：预训练模型展现出更快的收敛速度和更稳定的训练曲线
跨模态泛化：在MRI、内窥镜、显微镜三种不同模态数据上均表现优异，显示强大泛化能力
这项研究为医学图像分析领域提供了新的技术路线，通过巧妙结合Mamba架构的长程建模优势和预训练策略的数据效率，实现了性能与效率的双重突破。未来可进一步探索3D医学图像分割、多模态融合等扩展应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问