关于MASA-VMUNET: 一种用于医学图像分割的具有多尺度聚合与协同注意力的视觉Mamba网络的学术研究报告
一、 作者、机构与发表信息
本研究的主要作者为哈尔滨理工大学的王莉莉(Lili Wang,第一作者兼通讯作者)、高思琪(Siqi Gao)、陈晨(Chen Chen)和杨海路(Hailu Yang)。论文题为《MASA-VMUNet: A Vision Mamba Network with Multi-Scale Aggregation and Synergistic Attention for Medical Image Segmentation》,发表于《Expert Systems with Applications》期刊。根据文档信息,该论文于2026年6月11日被接收,预计于2025年发表(此处需注意文档中标注的年份存在2025与2026的交错,这可能是预印本版本管理或排版所致)。论文的预印本(preprint)版本提供了早期可见性,但非最终出版版本。
二、 学术背景与研究目的
本研究属于计算机视觉与医学影像分析交叉领域,具体聚焦于医学图像分割任务。医学图像分割是自动化临床诊断和治疗规划的基础技术,广泛应用于器官勾画、病灶分析和术前评估。当前主流方法主要基于卷积神经网络(Convolutional Neural Networks, CNNs)或基于自注意力(Self-Attention)的Transformer架构。然而,CNN因其固有的有限感受野,在捕获图像长程依赖关系方面存在局限。而Transformer虽然擅长建模全局上下文,但其计算复杂度与特征图分辨率呈二次方增长,在处理高分辨率医学图像时会产生巨大的计算和内存开销。
近年来,基于状态空间模型(State Space Models, SSMs)的Mamba模型及其视觉扩展Vision Mamba为上述问题提供了新的思路。Mamba通过选择性状态空间机制实现了长程依赖关系的高效建模,同时保持了线性计算复杂度,在视觉任务中展现出巨大潜力。已有研究将Vision Mamba应用于医学图像分割(如VM-Unet),并在长程依赖建模和计算效率上显示出优于CNN和Transformer方法的性能。
尽管如此,现有基于Vision Mamba的分割模型仍面临挑战:它们主要侧重于全局序列建模,而对解码阶段的多尺度特征交互和精细结构细节恢复关注不足。具体问题包括:1)缺乏有效的多尺度特征选择性融合机制,导致空间细节传播过程中可能通过跳跃连接引入冗余信息;2)常用的固定上采样策略难以准确重建复杂的解剖学边界;3)在U形架构的瓶颈(bottleneck)处缺乏多尺度语义交互,限制了模型对器官尺度变化的适应能力。
基于此,本研究旨在提出一种新型的医学图像分割网络,在保留Vision Mamba线性计算复杂度优势的同时,专门针对上述挑战进行设计。研究目标是开发一个集成协同注意力和多尺度特征聚合的Vision Mamba网络(MASA-VMUNet),以增强多尺度特征选择、跨层语义融合和高分辨率结构重建能力,从而提升模型处理复杂解剖结构的分割精度和边界一致性。
三、 研究方法与工作流程
本研究提出了一种名为MASA-VMUNet的新型网络架构。整个工作流程可概括为:设计网络核心模块,构建完整编码器-解码器架构,并在两个公开医学图像数据集上进行训练、评估与对比验证。
(一)MASA-VMUNet整体架构设计
MASA-VMUNet采用典型的U形编码器-解码器架构。网络以医学图像(尺寸H×W×3)作为输入,通过层次化特征提取与重构实现精确分割。
编码器:基于视觉状态空间(Visual State Space, VSS)模块构建,包含四个阶段。第一阶段由一个块嵌入层(Patch Embedding)和两个VSS块组成;后续三个阶段各包含一个块合并操作(Patch Merging)和两个VSS块。通过逐级下采样,空间分辨率降低,通道维度增加,最终生成从H/4×W/4×C到H/32×W/32×8C的多尺度特征表示。编码器负责提取具有高级语义信息的特征,并通过VSS块中的选择性扫描机制(SS2d)高效建模长程空间依赖关系。编码器输出的多尺度特征被保留,用于后续的解码和跳跃连接。
瓶颈:在编码器和解码器之间的瓶颈处,本研究引入了多尺度交叉注意力融合模块。该模块结合了多尺度特征提取与基于交叉注意力的全局建模,旨在实现不同感受野间语义信息的有效交互与融合。
解码器:同样包含四个阶段,负责逐步恢复空间分辨率。前三个阶段各包含两个通道-空间协同VSS模块和一个动态上采样精炼块;最后一个阶段包含一个CS-VSS块和一个最终的投影层。解码器采用渐进上采样策略。CS-VSS块对通道和空间依赖性进行并行建模,选择性增强判别性区域。DURB块被引入以缓解上采样过程中的细节模糊问题,实现内容感知的特征重建。
跳跃连接:本研究选择了1/4、1/8和1/16三个尺度的编码器特征与解码器进行融合,在信息有效性和计算效率之间取得平衡。为了处理编码器和解码器特征间的语义差异与冗余干扰,本研究设计了自适应简单注意力门控融合块,并将其集成到跳跃连接中,以对齐和过滤同尺度的编码器-解码器特征。
(二)创新核心模块的详细设计
通道-空间视觉状态空间模块:原始的VSS块在解码阶段直接应用时,对区分性语义特征的选择和空间目标区域的定位能力不足。CS-VSS模块在SS2d特征建模过程中,集成了一个并行注意力分支。该分支依次应用通道注意力(首先执行语义通道重校准,识别信息性特征)和空间注意力(随后基于通道精炼后的特征强调目标相关空间区域),生成统一的注意力表示,并通过逐元素乘法对SS2d输出进行重校准。这种“通道注意力→空间注意力”的串行设计遵循了从粗到细的特征精炼策略,增强了解码过程中的语义选择性和空间定位能力。
动态上采样精炼块:为了解决固定上采样方法缺乏内容适应性、难以精确重建解剖边界的问题,DURB块采用了动态采样策略。它首先根据输入特征预测采样位置,实现内容自适应的空间分辨率恢复。随后,引入一个特征精炼块,该块包含3x3卷积、批归一化和ReLU激活函数,用于捕获局部空间邻域信息,增强边缘和边界特征,从而进一步改善结构细节表示。
自适应简单注意力门控融合块:为了解决跳跃连接中编码器与解码器特征间的语义不一致和冗余干扰,ASGF模块被提出。该模块首先利用无参数的SimAM注意力机制为编码器特征生成逐位置的重要性权重,增强显著特征并抑制背景噪声。随后,通过一个门控机制动态调制跳跃特征,并将其与解码器特征融合。最后,通过一个轻量级的精炼单元(卷积、层归一化和SiLU激活)进一步优化特征表示,提高编码器与解码器表征的一致性。
多尺度交叉注意力融合模块:该模块位于网络瓶颈,旨在加强多尺度上下文交互和全局依赖建模。它由三个组件顺序构成:多尺度特征提取块:通过并行膨胀卷积(扩张率分别为3、6、9)捕获不同感受野下的局部上下文信息,并融合全局平均池化分支提供的全局语义信息。投影块:进行通道对齐和特征变换,减少特征冗余。交叉十字注意力块:基于精炼后的多尺度特征表示,通过分别沿水平方向和垂直方向计算一维注意力,有效捕获特征图上的长程空间依赖关系,同时将计算复杂度从二次方降低到接近线性水平。MS-CAF的设计理念是,先通过MSFE和投影块增强和精炼多尺度上下文特征,使后续的CCA操作能在更具判别性的特征分布上进行全局依赖建模,从而实现更有效的上下文聚合。
(三)实验设置与评估流程
数据集:
实验细节:
对比方法:为了验证MASA-VMUNet的有效性,研究将其与多种代表性及最先进的模型进行了比较,包括:基于CNN的方法、基于Transformer的方法、CNN-Transformer混合方法以及基于SSM的方法。
四、 主要研究结果
(一)在Synapse多器官CT数据集上的结果
定量比较结果显示,MASA-VMUNet在Synapse数据集上取得了最佳的整体性能,平均DSC达到84.36%,平均HD95低至11.95 mm。
(二)在ACDC心脏MRI数据集上的结果
在ACDC数据集上,MASA-VMUNet取得了92.29%的平均DSC,在所有对比方法中排名第一,展示了其在心脏结构分割上的有效性。
(三)可视化分析与挑战案例
定性可视化结果进一步支持了定量分析的结论。在Synapse数据集的复杂场景(如胃部边界不连续、胰腺形态不规则且对比度低、左右肾相邻边界模糊)中,MASA-VMUNet的分割结果在边界平滑度、结构完整性和细节保持方面均优于VM-Unet、Swin-Unet和TransUNet等基线方法。例如,对于胰腺,MASA-VMUNet能产生更连续完整的预测;对于相邻肾脏,能更精确地区分边界,减少误分类。
研究还专门展示了更具挑战性的案例,如器官边界模糊、结构极度不规则、对比度极低和尺寸极小的目标。分析指出,尽管MASA-VMUNet在这些区域取得了相对更准确的结果(用红框标出),但仍存在一些分割不完整的情况(用白框标出),这揭示了模型在极端条件下的剩余局限性,为未来研究指明了方向。
五、 结论与研究价值
本研究成功提出并验证了MASA-VMUNet,一个集成了协同注意力和多尺度特征聚合的Vision Mamba医学图像分割网络。
科学价值:
应用价值:
六、 研究亮点
七、 其他有价值的内容
文档中还包含了对相关工作(如U-Net变体、Vision Transformer、其他Mamba分割模型)的详尽回顾,清晰地梳理了该领域的技术发展脉络,为本研究的创新点提供了充分的背景铺垫和定位。此外,论文在方法部分详细阐述了状态空间模型的基本原理、离散化过程以及SS2d机制,有助于读者理解Vision Mamba的工作机制。在实验部分,作者对损失函数权重选择、评估指标意义(特别是HD95对边界误差的敏感性)进行了细致解释,体现了研究的严谨性。最后,对挑战案例的可视化分析不仅展示了模型的优势,也坦诚地指出了其局限,展现了科学的客观态度。