MASA-VMUNet：一种融合多尺度聚合与协同注意力的视觉Mamba网络用于医学图像分割

分享自：
MASA-VMUNet：一种融合多尺度聚合与协同注意力的视觉Mamba网络用于医学图像分割

生物医学工程
影像医学与核医学
期刊:Expert Systems with ApplicationsDOI:https://doi.org/10.1016/j.eswa.2026.133276
【点击此处】阅读全文、收藏及针对性提问
关于MASA-VMUNET: 一种用于医学图像分割的具有多尺度聚合与协同注意力的视觉Mamba网络的学术研究报告
一、 作者、机构与发表信息
本研究的主要作者为哈尔滨理工大学的王莉莉（Lili Wang，第一作者兼通讯作者）、高思琪（Siqi Gao）、陈晨（Chen Chen）和杨海路（Hailu Yang）。论文题为《MASA-VMUNet: A Vision Mamba Network with Multi-Scale Aggregation and Synergistic Attention for Medical Image Segmentation》，发表于《Expert Systems with Applications》期刊。根据文档信息，该论文于2026年6月11日被接收，预计于2025年发表（此处需注意文档中标注的年份存在2025与2026的交错，这可能是预印本版本管理或排版所致）。论文的预印本（preprint）版本提供了早期可见性，但非最终出版版本。
二、 学术背景与研究目的
本研究属于计算机视觉与医学影像分析交叉领域，具体聚焦于医学图像分割任务。医学图像分割是自动化临床诊断和治疗规划的基础技术，广泛应用于器官勾画、病灶分析和术前评估。当前主流方法主要基于卷积神经网络（Convolutional Neural Networks, CNNs）或基于自注意力（Self-Attention）的Transformer架构。然而，CNN因其固有的有限感受野，在捕获图像长程依赖关系方面存在局限。而Transformer虽然擅长建模全局上下文，但其计算复杂度与特征图分辨率呈二次方增长，在处理高分辨率医学图像时会产生巨大的计算和内存开销。
近年来，基于状态空间模型（State Space Models, SSMs）的Mamba模型及其视觉扩展Vision Mamba为上述问题提供了新的思路。Mamba通过选择性状态空间机制实现了长程依赖关系的高效建模，同时保持了线性计算复杂度，在视觉任务中展现出巨大潜力。已有研究将Vision Mamba应用于医学图像分割（如VM-Unet），并在长程依赖建模和计算效率上显示出优于CNN和Transformer方法的性能。
尽管如此，现有基于Vision Mamba的分割模型仍面临挑战：它们主要侧重于全局序列建模，而对解码阶段的多尺度特征交互和精细结构细节恢复关注不足。具体问题包括：1）缺乏有效的多尺度特征选择性融合机制，导致空间细节传播过程中可能通过跳跃连接引入冗余信息；2）常用的固定上采样策略难以准确重建复杂的解剖学边界；3）在U形架构的瓶颈（bottleneck）处缺乏多尺度语义交互，限制了模型对器官尺度变化的适应能力。
基于此，本研究旨在提出一种新型的医学图像分割网络，在保留Vision Mamba线性计算复杂度优势的同时，专门针对上述挑战进行设计。研究目标是开发一个集成协同注意力和多尺度特征聚合的Vision Mamba网络（MASA-VMUNet），以增强多尺度特征选择、跨层语义融合和高分辨率结构重建能力，从而提升模型处理复杂解剖结构的分割精度和边界一致性。
三、 研究方法与工作流程
本研究提出了一种名为MASA-VMUNet的新型网络架构。整个工作流程可概括为：设计网络核心模块，构建完整编码器-解码器架构，并在两个公开医学图像数据集上进行训练、评估与对比验证。
（一）MASA-VMUNet整体架构设计
MASA-VMUNet采用典型的U形编码器-解码器架构。网络以医学图像（尺寸H×W×3）作为输入，通过层次化特征提取与重构实现精确分割。
编码器：基于视觉状态空间（Visual State Space, VSS）模块构建，包含四个阶段。第一阶段由一个块嵌入层（Patch Embedding）和两个VSS块组成；后续三个阶段各包含一个块合并操作（Patch Merging）和两个VSS块。通过逐级下采样，空间分辨率降低，通道维度增加，最终生成从H/4×W/4×C到H/32×W/32×8C的多尺度特征表示。编码器负责提取具有高级语义信息的特征，并通过VSS块中的选择性扫描机制（SS2d）高效建模长程空间依赖关系。编码器输出的多尺度特征被保留，用于后续的解码和跳跃连接。
瓶颈：在编码器和解码器之间的瓶颈处，本研究引入了多尺度交叉注意力融合模块。该模块结合了多尺度特征提取与基于交叉注意力的全局建模，旨在实现不同感受野间语义信息的有效交互与融合。
解码器：同样包含四个阶段，负责逐步恢复空间分辨率。前三个阶段各包含两个通道-空间协同VSS模块和一个动态上采样精炼块；最后一个阶段包含一个CS-VSS块和一个最终的投影层。解码器采用渐进上采样策略。CS-VSS块对通道和空间依赖性进行并行建模，选择性增强判别性区域。DURB块被引入以缓解上采样过程中的细节模糊问题，实现内容感知的特征重建。
跳跃连接：本研究选择了1/4、1/8和1/16三个尺度的编码器特征与解码器进行融合，在信息有效性和计算效率之间取得平衡。为了处理编码器和解码器特征间的语义差异与冗余干扰，本研究设计了自适应简单注意力门控融合块，并将其集成到跳跃连接中，以对齐和过滤同尺度的编码器-解码器特征。
（二）创新核心模块的详细设计
通道-空间视觉状态空间模块：原始的VSS块在解码阶段直接应用时，对区分性语义特征的选择和空间目标区域的定位能力不足。CS-VSS模块在SS2d特征建模过程中，集成了一个并行注意力分支。该分支依次应用通道注意力（首先执行语义通道重校准，识别信息性特征）和空间注意力（随后基于通道精炼后的特征强调目标相关空间区域），生成统一的注意力表示，并通过逐元素乘法对SS2d输出进行重校准。这种“通道注意力→空间注意力”的串行设计遵循了从粗到细的特征精炼策略，增强了解码过程中的语义选择性和空间定位能力。
动态上采样精炼块：为了解决固定上采样方法缺乏内容适应性、难以精确重建解剖边界的问题，DURB块采用了动态采样策略。它首先根据输入特征预测采样位置，实现内容自适应的空间分辨率恢复。随后，引入一个特征精炼块，该块包含3x3卷积、批归一化和ReLU激活函数，用于捕获局部空间邻域信息，增强边缘和边界特征，从而进一步改善结构细节表示。
自适应简单注意力门控融合块：为了解决跳跃连接中编码器与解码器特征间的语义不一致和冗余干扰，ASGF模块被提出。该模块首先利用无参数的SimAM注意力机制为编码器特征生成逐位置的重要性权重，增强显著特征并抑制背景噪声。随后，通过一个门控机制动态调制跳跃特征，并将其与解码器特征融合。最后，通过一个轻量级的精炼单元（卷积、层归一化和SiLU激活）进一步优化特征表示，提高编码器与解码器表征的一致性。
多尺度交叉注意力融合模块：该模块位于网络瓶颈，旨在加强多尺度上下文交互和全局依赖建模。它由三个组件顺序构成：多尺度特征提取块：通过并行膨胀卷积（扩张率分别为3、6、9）捕获不同感受野下的局部上下文信息，并融合全局平均池化分支提供的全局语义信息。投影块：进行通道对齐和特征变换，减少特征冗余。交叉十字注意力块：基于精炼后的多尺度特征表示，通过分别沿水平方向和垂直方向计算一维注意力，有效捕获特征图上的长程空间依赖关系，同时将计算复杂度从二次方降低到接近线性水平。MS-CAF的设计理念是，先通过MSFE和投影块增强和精炼多尺度上下文特征，使后续的CCA操作能在更具判别性的特征分布上进行全局依赖建模，从而实现更有效的上下文聚合。
（三）实验设置与评估流程
数据集：
Synapse多器官CT数据集：包含30个腹部CT体积，共3779个轴位对比增强切片，标注了主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺和胃8个腹部器官。
ACDC自动心脏诊断挑战数据集：包含100个心脏磁共振成像（MRI）病例，每个病例标注了右心室、心肌和左心室三个心脏结构。按照TransUNet的数据划分协议，使用70例训练、10例验证、20例测试。
实验细节：
实现与训练：使用PyTorch框架，在NVIDIA RTX 4090 GPU上训练。编码器和解码器使用在ImageNet-1k上预训练的VMamba-S骨干网络初始化，新引入的模块随机初始化。所有参数端到端联合优化。
数据预处理与增强：输入图像统一调整为224×224分辨率，采用2D切片训练策略。使用随机翻转和随机旋转进行数据增强。
优化与损失函数：使用AdamW优化器，初始学习率1e-3，采用余弦退火学习率调度。训练300个epoch。损失函数为交叉熵损失和Dice损失的加权组合，权重系数通过敏感性分析确定（Synapse：1.0 & 1.0；ACDC：0.4 & 0.6）。
评估指标：采用Dice相似系数和95%豪斯多夫距离。DSC衡量预测分割与真实标签的重叠程度；HD95衡量两者边界间的偏差，对边界不规则和碎片化预测更敏感。
对比方法：为了验证MASA-VMUNet的有效性，研究将其与多种代表性及最先进的模型进行了比较，包括：基于CNN的方法、基于Transformer的方法、CNN-Transformer混合方法以及基于SSM的方法。
四、 主要研究结果
（一）在Synapse多器官CT数据集上的结果
定量比较结果显示，MASA-VMUNet在Synapse数据集上取得了最佳的整体性能，平均DSC达到84.36%，平均HD95低至11.95 mm。
整体性能分析：与性能优异的CNN方法2D D-LKA Net相比，MASA-VMUNet的DSC提升了0.09%，同时HD95显著降低了8.09 mm。这说明了MASA-VMUNet在边界定位精度上的巨大提升。与Transformer方法Swin-Unet相比，DSC提升了5.23%，HD95降低了9.60 mm。与混合方法MixFormer相比，DSC提升了1.72%，HD95降低了0.72 mm。与最近的Mamba方法VM-Unet相比，DSC提升了3.28%，HD95降低了7.26 mm。这些比较结果充分证明了所提出的CS-VSS、DURB、ASGF和MS-CAF模块协同工作的有效性，它们共同专注于增强细粒度结构表征和边界感知的特征重建，而非仅仅增加区域重叠。
单器官性能分析：MASA-VMUNet在中小型器官（如主动脉、胆囊、左右肾）的分割上显示出明显优势。例如，在胆囊分割上DSC达到74.64%，优于MixFormer的71.53%。对于边界复杂、与周围组织紧密相邻的左右肾，MS-CAF模块有效整合了全局结构信息和局部边缘特征，DURB模块则精炼了复杂边界，带来了分割性能的提升。
局限性分析：对于肝脏（95.03%）和胃（83.04%）等大型器官，MASA-VMUNet的DSC略低于个别对比方法（如PCS-TransUNet的肝脏DSC为96.12%）。作者分析认为，大型器官分割更依赖整体形状表征，而本研究提出的模块主要侧重于细粒度边界感知和空间定位，因此对大型器官的性能提升相对不那么显著。这也指出了未来可以改进的方向，即进一步增强模型对大规模解剖区域整体结构特征的捕获能力。
（二）在ACDC心脏MRI数据集上的结果
在ACDC数据集上，MASA-VMUNet取得了92.29%的平均DSC，在所有对比方法中排名第一，展示了其在心脏结构分割上的有效性。
性能稳定性：经过三次独立训练，平均DSC为92.29%，标准差为0.05%，证明了框架的稳定性。
结构间平衡性：MASA-VMUNet在右心室（90.62%）、心肌（90.17%）和左心室（96.07%）三个结构上都保持了有竞争力且相对平衡的DSC值。而一些对比方法（如HG-Mamba）虽然在左心室上得分更高（96.80%），但在心肌上得分较低（88.53%）。这表明MASA-VMUNet能提供更稳定、均衡的分割性能，而非偏重于某一特定类别。
（三）可视化分析与挑战案例
定性可视化结果进一步支持了定量分析的结论。在Synapse数据集的复杂场景（如胃部边界不连续、胰腺形态不规则且对比度低、左右肾相邻边界模糊）中，MASA-VMUNet的分割结果在边界平滑度、结构完整性和细节保持方面均优于VM-Unet、Swin-Unet和TransUNet等基线方法。例如，对于胰腺，MASA-VMUNet能产生更连续完整的预测；对于相邻肾脏，能更精确地区分边界，减少误分类。
研究还专门展示了更具挑战性的案例，如器官边界模糊、结构极度不规则、对比度极低和尺寸极小的目标。分析指出，尽管MASA-VMUNet在这些区域取得了相对更准确的结果（用红框标出），但仍存在一些分割不完整的情况（用白框标出），这揭示了模型在极端条件下的剩余局限性，为未来研究指明了方向。
五、 结论与研究价值
本研究成功提出并验证了MASA-VMUNet，一个集成了协同注意力和多尺度特征聚合的Vision Mamba医学图像分割网络。
科学价值：
理论创新：将通道-空间注意力机制与Vision Mamba的状态空间模型相结合，提出了CS-VSS模块，为如何在保持线性复杂度的同时，增强序列模型的特征选择性和空间定位能力提供了新思路。
方法创新：系统地设计并整合了DURB、ASGF和MS-CAF等多个新型模块，形成了一个协同工作的框架，分别针对上采样重建、跨层融合和上下文聚合等分割关键环节进行优化，为改进U形架构的解码过程提供了模块化解决方案。
性能验证：在两个具有不同成像模态（CT vs. MRI）和不同解剖场景（腹部多器官 vs. 心脏结构）的公开数据集上，MASA-VMUNet均取得了最先进或极具竞争力的分割精度和边界质量，证明了其方法的有效性和泛化能力。
应用价值：
临床辅助诊断：更高的分割精度和更好的边界一致性，有助于医生更准确地进行器官体积测量、病灶分析和手术规划，提升自动化诊断系统的可靠性。
计算效率潜力：基于Vision Mamba骨干，模型在理论上保持了线性计算复杂度的优势，为未来在高分辨率、大尺度医学图像（如3D体积数据）上的高效分割应用奠定了基础。
开源与可复现性：研究基于官方VM-Unet代码库实现，并详细说明了训练配置和模块设计，有利于其他研究者复现、验证并在此基础上进行进一步改进。
六、 研究亮点
提出了协同注意力的解码增强策略：首创了CS-VSS模块，将顺序的通道-空间注意力集成到SS2d解码过程中，实现了从粗到细的特征重校准，显著提升了解码特征的语义判别力和空间定位能力。
构建了动态边界感知的上采样机制：设计了DURB模块，结合动态内容感知上采样和局部特征精炼，有效改善了复杂解剖边界的重建质量，减少了上采样导致的细节模糊。
实现了自适应跨层语义融合：提出了ASGF模块，利用无参数注意力机制和门控机制，自适应过滤和融合跳跃连接特征，缓解了编码器与解码器特征间的语义差距和冗余干扰。
强化了瓶颈处的多尺度上下文建模：引入了MS-CAF模块，通过并行多尺度特征提取与交叉十字注意力建模的串联，在瓶颈处实现了局部上下文信息与长程依赖关系的互补性整合。
形成了统一的协同分割框架：将上述四个核心模块有机整合进一个Vision Mamba U-Net架构中，形成了一个在特征精炼、自适应融合、上下文聚合和边界重建等多个层面协同工作的完整解决方案，而非孤立的技术堆砌。
全面的实验验证：在Synapse和ACDC两个权威数据集上进行了充分的定量、定性和消融实验，不仅证明了整体性能优势，还深入分析了各模块的贡献、模型在不同类型器官上的表现以及面临的挑战，结论扎实可信。
七、 其他有价值的内容
文档中还包含了对相关工作（如U-Net变体、Vision Transformer、其他Mamba分割模型）的详尽回顾，清晰地梳理了该领域的技术发展脉络，为本研究的创新点提供了充分的背景铺垫和定位。此外，论文在方法部分详细阐述了状态空间模型的基本原理、离散化过程以及SS2d机制，有助于读者理解Vision Mamba的工作机制。在实验部分，作者对损失函数权重选择、评估指标意义（特别是HD95对边界误差的敏感性）进行了细致解释，体现了研究的严谨性。最后，对挑战案例的可视化分析不仅展示了模型的优势，也坦诚地指出了其局限，展现了科学的客观态度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问