Mambavesselnet++：一种用于医学图像分割的混合CNN-Mamba架构

分享自：
Mambavesselnet++：一种用于医学图像分割的混合CNN-Mamba架构

期刊:j. acmDOI:https://doi.org/xxxxxxx.xxxxxxx
关于 MambaVesselNet++: 一种用于医学图像分割的混合 CNN-Mamba 架构的学术报告
本文是一篇发表于《Journal of the ACM》（J. ACM）（第37卷第4期，2018年8月）的原创性研究论文，报告了一种名为 MambaVesselNet++ 的新型深度学习架构，旨在解决医学图像分割领域的关键挑战。该研究由 Qing Xu, Yanming Chen, Yue Li, Ziyu Liu, Yixuan Zhang, Huizhong Zheng, Xiangjian He（来自宁波诺丁汉大学），以及 Zhenye Lou（来自四川大学）共同完成。
一、 学术背景
本研究所在的科学领域是计算机视觉（Computer Vision），具体聚焦于医学图像分割（Medical Image Segmentation）。在计算机辅助诊断（CAD）中，精确分割病灶、血管或组织区域是疾病诊断、分级和治疗规划的基础。传统基于卷积神经网络（CNN）的方法，特别是U型架构（如U-Net），虽取得显著成功，但其局部感受野（local receptive field） 限制了其捕获长程空间依赖关系（long-range dependencies）的能力。这在处理具有复杂拓扑结构的医学图像（如遍布全脑的脑血管、分布离散的细胞核、边界模糊的肿瘤）时尤为不利。随后兴起的视觉变换器（Vision Transformer， ViT）通过自注意力（self-attention）机制能够有效建模全局上下文，但其二次方的计算复杂度（quadratic complexity）在处理高分辨率的三维医学图像时带来了巨大的计算成本和内存开销，限制了其实用性。
最近出现的选择性状态空间模型（Selective State Space Model, SSM）Mamba，因其能够以线性复杂度高效建模序列数据中的长程依赖关系而受到关注。然而，现有的纯Mamba架构在医学图像分割中难以捕捉局部纹理细节，导致对小目标的分割性能下降。因此，如何构建一个同时兼顾局部特征提取与高效全局建模的架构成为核心问题。本研究团队在ACM Multimedia Asia 2024会议上已提出一个初步的混合CNN-Mamba模型 MambaVesselNet，用于三维脑血管分割。本研究（MambaVesselNet++）是对前作的扩展和深度优化，旨在构建一个更通用、更强大的框架，以适配多样化的医学分割任务（包括2D/3D语义分割和实例分割）。
本研究的目的是： 1）提出一个统一的混合CNN-Mamba架构，以CNN的局部感知能力和Mamba的线性全局建模能力为互补优势；2）将该架构扩展应用于广泛的医学成像模态，证明其通用性和优越性；3）在多种公开数据集上，超越现有的基于CNN、Transformer和Mamba的先进方法。
二、 研究详细工作流程
本研究的工作流程围绕MambaVesselNet++模型的构建、训练、验证与评估展开，主要包含以下核心环节：
1. 模型架构设计： MambaVesselNet++采用经典的编码器-解码器（Encoder-Decoder）U型结构，但其核心创新在于两个部分： * 混合图像编码器（Hybrid Image Encoder, HI-Encoder）： 这是一个两阶段设计。第一阶段包含多个纹理感知层（Texture-aware Layer）。每层使用3x3和2x2卷积核进行特征提取和下采样（采用步长为2的卷积而非最大池化，以保留更全面的低层语义信息），并结合残差连接。第二阶段是视觉Mamba层（Vision Mamba Layer）。它将编码器提取的低级特征图展平为序列，送入多个Mamba块进行处理。每个Mamba块利用二维选择性扫描（2D-Selective-Scan， SS2D） 机制，沿四个方向（水平、垂直、对角线）扫描特征序列，通过其内部的选择性状态空间模型（S6块） 以线性复杂度捕捉全局空间依赖关系，最后再整合回空间结构。这种设计确保编码器同时捕获局部纹理和全局上下文。 * 双焦融合解码器（Bifocal Fusion Decoder, BF-Decoder）： 解码器通过跳跃连接（skip connections）将编码器不同层级的局部特征与瓶颈层（bottleneck）的全局特征进行融合。具体过程是：将来自视觉Mamba层的全局特征上采样，并与来自对应层级的纹理感知层的局部特征进行逐元素相加，再通过卷积层进行特征整合。这种“双焦”融合确保了最终用于生成分割掩码的特征同时蕴含精细的局部边界信息和宏观的全局结构信息。
2. 自适应优化策略： 为了使MambaVesselNet++能够灵活适应不同任务，研究引入了两个关键的自适应机制： * 自适应卷积： 模型根据输入维度（2D或3D）自动切换使用2D或3D卷积操作，从而能够无缝处理2D和3D医学图像。 * 多分支解码： 设计了不同的解码头（decoding head）以支持语义分割和实例分割任务。对于语义分割，使用单个解码头，并以Dice损失和交叉熵损失的加权和进行监督。对于实例分割（例如细胞核分割），则采用多任务学习框架，配置三个并行解码头：a) 细胞核预测头（预测所有细胞核的语义图）；b) 水平-垂直距离预测头（预测每个像素到其所属细胞核中心的水平和垂直距离）；c) 细胞核类型预测头（预测细胞核类别）。三个头分别用组合损失（如Focal损失、Dice损失、均方误差损失等）进行监督。训练完成后，结合形态学后处理算法生成最终的实例分割结果。
3. 实验数据与评估： 研究在六个公开的医学图像数据集上进行了全面评估，覆盖多种模态和任务： * 数据集： PH2（皮肤镜图像，皮肤病变分割）、CVC-ClinicDB（结肠镜图像，息肉分割）、DRIVE（眼底图像，视网膜血管分割）、UDIAT（超声图像，乳腺病变分割）、TNBC（组织病理学图像，细胞核实例分割）以及IXI（三维磁共振血管成像MRA，脑血管语义分割）。样本量从40到612不等。 * 评估指标： 对于语义分割，使用Dice系数、平均交并比（mIoU）、精确度、召回率和豪斯多夫距离（HD）。对于实例分割，使用聚合杰卡德指数（AJI）、全景质量（PQ）、检测质量（DQ）和分割质量（SQ）。 * 实验设置： 所有实验基于PyTorch和MONAI框架，在NVIDIA A5000 GPU上运行。使用Adam优化器和余弦退火学习率调度器。对于3D分割，采用64x64x64的块进行训练；对于2D分割，采用标准训练轮次。所有基线模型（包括U-Net3D、nnUNet、TransUNet、U-Mamba、SegMamba等）均在相同的数据增强设置下进行训练和比较，以确保公平性。
三、 主要研究结果
在2D医学语义分割任务上的性能： 在PH2、CVC-ClinicDB、DRIVE和UDIAT四个数据集上，MambaVesselNet++在所有对比的基线模型中均取得了最优或极具竞争力的性能。例如，在PH2皮肤病变分割上，MambaVesselNet++的Dice系数达到0.953，mIoU达到0.911，HD低至19.50，均优于第二名方法（Swin-UMamba）。在DRIVE视网膜血管分割这一挑战性任务上，其Dice系数达到0.711，显著优于TransUNet的0.614。这些结果表明，该模型在分割精度和边界定位准确性方面具有显著优势。实验结果详见论文中的表2和表3。
在2D细胞核实例分割任务上的性能： 在TNBC数据集上，MambaVesselNet++同样表现出色。其在AJI（0.534）、DQ（0.657）等关键指标上领先或接近最先进的专用实例分割模型（如CellViT、HoVer-Net、Cellpose）。这证明了其多分支解码策略在复杂实例分割任务上的有效性。结果详见论文表4。
在3D脑血管体积分割任务上的性能： 在IXI MRA数据集上的实验是核心验证之一。MambaVesselNet++取得了最高的Dice系数（0.870）和精确度（0.889）。尽管其召回率（0.859）略低于SwinUNETR和SegMamba，但其更高的精确度带来了更优的总体分割性能。更重要的是，它在训练时间（2.1分钟/轮）和内存消耗（6.9 GB） 上均低于所有对比模型，包括纯CNN的nnUNet和U-Net3D，这凸显了Mamba模块线性复杂度的效率优势。结果详见论文表5。
消融实验（Ablation Study）结果： 在IXI数据集上进行的消融实验（论文表6）系统地验证了各个模块的贡献。以TransUNet为基线，逐步添加纹理感知层、视觉Mamba层、完整的HI-编码器以及最终的BF-解码器。结果显示，每个模块的加入都对性能有正向提升。最终的完整模型（HI-编码器+BF-解码器）取得了最佳的Dice分数（0.870），证明了所提出的混合架构和双焦融合策略的有效性。
域泛化（Domain Generalization）能力验证： 研究进一步测试了模型在未见过的、但来自相同解剖区域的数据集上的表现。例如，在PH2数据集上训练，在ISIC2018数据集上测试皮肤病变分割；在DRIVE上训练，在STARE数据集上测试视网膜血管分割。结果表明（论文表7和表8），MambaVesselNet++在跨域测试中依然保持领先性能，其性能下降幅度小于其他基线模型，展示了更强的泛化能力和临床实用潜力。
四、 研究结论与价值
本研究成功提出并验证了 MambaVesselNet++，一种高效的混合CNN-Mamba架构，用于通用医学图像分割。其核心价值在于： * 科学价值： 首次系统地探索并验证了将CNN的局部特征提取优势与Mamba的线性复杂度全局建模能力相结合，用于广泛的2D/3D医学图像分割任务的可行性。该工作为“如何构建更高效的全局-局部特征融合模型”提供了新的思路和范式。 * 应用价值： 模型在六个不同模态、五种不同解剖结构的公开数据集上均表现出优越性能，并展示了良好的域泛化能力。这表明MambaVesselNet++具有成为临床辅助诊断中通用、高效分割工具的潜力，尤其适用于处理高分辨率3D数据（如MRA、CT）等计算密集型场景，具有“临床友好”的特性。其自适应设计也使其易于集成到不同的医学影像分析流程中。 * 重要观点： 研究通过定性可视化对比（论文图4-7）指出，纯CNN模型容易因局部感受野限制导致欠分割（under-segmentation，漏掉部分结构），而纯Transformer或Mamba为骨干的模型则可能因过度强调全局上下文导致过分割（over-segmentation，将非目标区域误判为目标）。MambaVesselNet++通过在瓶颈处战略性地引入Mamba模块，巧妙平衡了局部细节与全局依赖，有效缓解了这两种极端问题。
五、 研究亮点
架构创新性： 这是首个将混合CNN-Mamba架构扩展并优化，用于涵盖2D/3D语义分割和实例分割的通用医学图像分割框架。
方法通用性： 通过自适应卷积和多分支解码策略，一个模型框架即可灵活适配多种维度和任务类型的医学图像分割，极大提升了方法的实用范围。
性能优越性： 在涵盖皮肤镜、内窥镜、眼底、超声、病理和血管成像的六大公开基准测试中，全面超越或比肩当前最先进的基于CNN、Transformer和Mamba的分割模型。
效率与效果平衡： 不仅取得了更高的分割精度，还在3D分割任务中显著降低了计算时间和内存占用，实现了性能与效率的双重提升。
深入的验证分析： 除了标准性能对比，还进行了详尽的消融实验和跨域泛化测试，从多个角度有力支撑了模型设计的合理性和鲁棒性。
六、 其他有价值内容
论文还讨论了MambaVesselNet++的可解释性潜力。Mamba中的选择性参数（如矩阵B和C）是动态的，它们反映了模型在处理不同区域时，对输入信息的整合强度和输出特征的关注重点。例如，在血管分割中，高选择性的B值可能对应血管分叉或病变等关键区域。这为临床医生提供了理解模型决策焦点的窗口，有助于建立信任并进行人工复核，从而增强其作为临床决策支持工具（而非黑盒替代品）的价值。代码已开源，便于复现和后续研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问