MedMamba：基于状态空间模型的多尺度可变形注意力的鲁棒医学图像分割

分享自：
MedMamba：基于状态空间模型的多尺度可变形注意力的鲁棒医学图像分割

生物医学工程
信息科学
医学
人工智能
计算机科学
期刊:Biomedical Signal Processing and ControlDOI:10.1016/j.bspc.2025.108363
【点击此处】阅读全文、收藏及针对性提问
本文介绍了一项名为MedMamba的创新医学图像分割框架研究。该研究由Junming Wang、Dajiang Lei（通讯作者）、Yuqi Zhang、Jinhe Yuan、Chen Liu、Bin Luo、Qun Liu和Guoyin Wang组成的团队完成。团队主要来自重庆邮电大学计算机科学与技术学院，以及重庆认知图像重点实验室、重庆市第五人民医院、陆军军医大学西南医院、四川互慧软件有限公司和重庆师范大学重庆应用数学中心等多个机构。研究论文发表于期刊 Biomedical Signal Processing and Control 第112卷（2026年），文章编号108363。
该研究属于医学图像处理与人工智能交叉领域，具体聚焦于医学图像分割任务。医学图像分割旨在从CT、超声、眼底相机等医学影像中精确勾勒出特定组织、器官或病变的边界，是疾病诊断、治疗规划和疗效评估等下游任务的基础。然而，由于解剖结构复杂多变、存在多尺度差异、边界模糊以及严重的类别不平衡等问题，实现准确且鲁棒的分割一直是一项关键挑战。传统方法依赖专家手工标注，费时费力且存在主观差异。深度学习方法，尤其是基于卷积神经网络和Transformer的模型取得了显著进展，但它们各自存在局限：CNN受限于局部感受野，难以有效建模长程依赖；Transformer的自注意力机制虽能捕获全局上下文，但其计算复杂度随输入尺寸呈二次方增长，计算开销巨大。
近年来，状态空间模型因其能以线性复杂度有效捕获长程依赖而受到关注，特别是Mamba模型及其在视觉任务上的变体。在医学图像分割领域，已有研究尝试将SSM与CNN结合，但如何更有效地整合多尺度特征、处理变形结构并解决类别不平衡问题，仍有提升空间。本研究旨在应对上述三个核心挑战：多尺度解剖结构、弱边界/低信噪比、以及严重的类别不平衡。为此，研究团队提出了MedMamba，一个新颖且鲁棒的框架，其核心目标是通过独特地集成多尺度空间自适应注意力与高效的状态空间模型，构建一个能够同时建模全局语义与局部细节、并对复杂医学影像具有强大适应性的分割模型。
MedMamba的研究工作流程清晰，主要包含几个关键部分：模型架构设计、核心模块创新、损失函数构建以及全面的实验验证。
首先，在模型架构上，MedMamba采用了非对称的U形编码器-解码器结构。输入图像经过一个Patch Embedding层，被划分为不重叠的4x4图像块并嵌入到特征空间。编码器包含四个阶段，每个阶段集成了研究团队提出的核心创新模块之一：多尺度协作感知模块。解码器同样包含四个阶段，每个阶段集成了另一个核心创新模块：全局-变形协作解码模块。编码器与解码器之间通过简单的逐元素相加进行跳跃连接。最后，通过一个线性投影层输出分割结果。
研究流程的核心是对两个创新模块的详细设计与验证。第一个关键创新是多尺度协作感知模块。该模块被嵌入编码器，旨在解决解剖结构尺度差异巨大的问题。其工作流程如下：输入特征图首先通过1x1卷积进行通道扩展。随后，特征图被送入四个并行的深度可分离卷积分支，这些分支使用了异构的卷积核形状：3x1, 1x3, 3x3和5x5。这种设计旨在同时捕获方向性边缘、局部模式和更广泛的上下文信息。四个分支的输出被拼接后，送入一个空间-通道压缩与激励模块。该注意力机制并行执行空间维度和通道维度的重加权，能够自适应地抑制无关背景激活并强调语义重要的特征，这对于突出医学图像中细微、稀疏的目标结构尤为有效。最后，通过1x1卷积进行通道压缩，并通过残差连接与处理后的输入特征相加，得到模块的最终输出。通过消融实验，研究团队验证了使用深度可分离卷积在显著降低计算量和参数量的同时保持了性能；也证明了包含四种不同尺寸卷积核的完整配置能取得最佳效果，特别是5x5大核对于捕获上下文信息至关重要；此外，SCSE注意力机制相比SE和CBAM能带来更优的分割性能。
第二个关键创新是全局-变形协作解码模块。该模块位于解码器，目标是实现多尺度特征图的空间建模，以精确重建复杂解剖边界。这里的“变形”并非指使用可变形卷积，而是指模块能够通过深度融合局部细节与全局上下文，灵活适应目标（如肿瘤、器官）的多样空间形态。该模块采用双分支设计。第一条是局部-SS2D分支：输入特征经过层归一化后，在通道维度上对半分割。一半特征送入SS2D分支，利用选择性状态空间机制建模长程依赖；另一半特征送入高效局部注意力分支，提取精细的空间细节。两者输出在通道维度拼接，形成丰富的局部细节特征源，该特征源将被后续所有解码阶段复用。第二条是卷积-SS2D堆叠分支：输入特征依次通过多个“Conv-SS2D块”处理。每个块内，特征先经过组卷积和GELU激活捕获局部模式，再通过1x1卷积融合跨通道特征，然后送入SS2D模块建模长程依赖。关键的一步是，将SS2D的输出与从局部-SS2D分支获取的原始局部细节特征进行通道拼接，这使得网络在深层仍能参考高保真的局部信息，防止细节丢失。最后通过1x1卷积压缩通道。两个分支的输出通过一个简单的“拼接后接1x1卷积”的策略进行融合。消融实验表明，这种简单的融合策略在性能和效率上取得了最佳平衡，而四向扫描策略的SS2D能提供最丰富的方向性上下文，性能优于单向或双向扫描。
第三个重要组成部分是任务感知的复合损失函数。为了同时解决类别不平衡和边界模糊问题，研究团队提出了BCEDiceFocal损失函数。该函数自适应地结合了二元交叉熵损失（优化像素级分类精度）、Dice损失（促进预测与真实标签的区域重叠）和Focal损失（通过调制因子重新加权难易样本，聚焦难分割区域）。最终损失是这三项的加权和，权重通过网格搜索确定为λ1=1, λ2=1, λ3=0.5。消融实验证实，该复合损失配置优于单一损失或其他权重组合。
研究的验证对象和实验流程严谨。团队在两个具有挑战性和代表性的公开数据集上进行了广泛实验：CT2USForkidneySeg（肾脏超声分割数据集，4586张图像，按7:3分为训练集和测试集）和FIVES（眼底血管分割数据集，800张高分辨率图像，按600/200分为训练集和测试集）。评估指标包括准确率、敏感性、特异性、Dice相似系数和平均交并比。在实现细节上，所有图像被统一缩放至256x256，使用了随机翻转和旋转等数据增强，采用AdamW优化器和余弦退火学习率调度器，训练300个epoch，批量大小为16。为确保客观性，未使用额外的预训练权重。
研究的主要结果令人信服。在CT2USForkidneySeg数据集上，MedMamba在所有五项核心指标上均取得了最佳性能，特别是敏感性达到97.78%，Dice系数达到97.85%，均显著优于对比方法中表现次优的VM-UNet。这表明MSCP模块中的SCSE注意力机制有效增强了对弱特征的响应，而GDCD模块显著提升了全局与局部特征的协同重建能力。同时，模型在保持高特异性（99.49%）的同时大幅提高了敏感性，很好地平衡了假阳性和假阴性。在FIVES数据集上，MedMamba同样表现卓越，在准确率（98.34%）、特异性（99.40%）和Dice系数（88.39%）上领先，其中Dice系数比VM-UNet高出1.72%。这证明了该模型在分割极其细微、低对比度的血管结构方面的优势，其动态特征重校准机制和长程依赖建模能力改善了血管的连续性和形态准确性。
大量的消融研究为每个设计选择提供了坚实的证据。除了前述关于卷积类型、卷积核组合、注意力机制、损失权重和SS2D扫描策略的消融实验外，研究还进行了组件级消融，结果表明移除MSCP模块、GDCD模块或Focal损失组件都会导致性能一致下降，验证了每个组件的必要性。此外，团队还对模型的部分失败案例进行了分析。例如，在肾脏超声数据集中，模型偶尔会在肾脏邻近的相似强度组织区域产生假阳性，但相比其他模型数量更少；有时模型预测的肾脏边界比人工标注更平滑，这可能在降低边界敏感度量分数（如Dice）的同时，通过减少标注噪声提高了观察者间的一致性，被认为是一个有意义的权衡。在眼底血管数据集中，失败主要出现在远端细小血管分支的断裂，但MedMamba相比其他方法仍表现出更好的连续性和形态保持能力。
本研究得出结论：MedMamba通过三重增强策略，成功统一了全局建模与局部感知能力。其贡献主要体现在：1）提出了一个集成多分支卷积和SCSE注意力机制的MSCP模块，显著提升了模型对多尺度解剖结构的适应性；2）提出了一个基于双分支SS2D与卷积特征建模融合的GDCD模块，能够灵活适应目标的空间形态，实现精确的边界重建，而无需依赖可变形卷积；3）设计了一个结合BCE、Dice和Focal损失的复合损失函数，有效应对了类别不平衡和边界模糊的挑战。在两个具有挑战性的数据集上的广泛实验证明，MedMamba在分割精度和鲁棒性方面均优于现有的先进方法。
本研究的科学价值在于，它创新性地将状态空间模型与多尺度空间自适应注意力机制深度结合，为医学图像分割领域提供了一种兼顾高效长程依赖建模和精细局部特征提取的新范式。其应用价值显著，所提出的框架在肾脏超声分割和眼底血管分割任务上展现出的优异性能，预示着其在多种临床辅助诊断场景（如器官定位、病灶勾画、血管分析等）中具有巨大的应用潜力。研究的亮点包括：1）重要的方法学创新，即MSCP和GDCD两个核心模块的独特设计；2）对SS2D扫描策略、注意力机制、损失函数等细节进行了深入、系统的消融研究，为设计选择提供了坚实依据；3）在多个具有不同模态和挑战的数据集上进行了全面验证，证明了模型的通用性和鲁棒性。最后，作者也指出了未来工作的方向，包括在更多多中心、多设备数据集上进行泛化性研究，将框架扩展到3D医学图像分割任务，以及探索结合半监督或自监督学习以减少对大规模标注数据的依赖。这些方向将进一步推动MedMamba向实际临床部署迈进。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问