MCAVM-Unet：增强视觉Mamba在医学图像分割中的关键区域聚焦与特征交互

分享自：
MCAVM-Unet：增强视觉Mamba在医学图像分割中的关键区域聚焦与特征交互

人工智能
计算机科学
医学
信息科学
生物医学工程
期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2025.109371
【点击此处】阅读全文、收藏及针对性提问
关于 MCAVM-Unet 架构在医学图像分割中应用的学术研究报告
一、 研究基本信息
本研究报告介绍的是一项原创性研究工作，发表于 Elsevier 旗下的学术期刊 Biomedical Signal Processing and Control 第114卷（2026年），论文标题为《MCAVM-Unet: Enhancing Key Region Focus and Feature Interaction in Vision Mamba for Medical Image Segmentation》。该研究的主要作者为钟明峰（汕头大学数学与计算机科学学院计算机科学系）和赵志丹（海南大学网络空间安全学院大数据系、海南大学复杂计算实验室），其中赵志丹为通讯作者。
二、 学术背景
本研究属于医学图像分析与计算机视觉的交叉领域，具体聚焦于医学图像分割任务。精确的医学图像分割对于临床诊断和治疗规划至关重要。传统的卷积神经网络（CNN）模型，如 U-Net 及其变体，虽然广泛应用，但在建模长程依赖关系上存在固有局限。视觉变换器（Vision Transformers, ViTs）通过自注意力机制解决了这一问题，但其计算复杂度高且对大规模标注数据依赖性强，限制了其在资源受限的临床场景中的应用。
近年来，状态空间模型（State Space Models, SSMs）因其能以线性计算复杂度建模长程依赖而受到关注。Mamba 作为 SSM 的先驱架构，在自然语言处理中取得显著成功，并随后被适配到视觉任务中，形成了视觉 Mamba（Vision Mamba）架构。基于 Mamba 的 U 形分割模型（如 VM-Unet, MSVM-Unet）展现了潜力。然而，现有基于 Mamba 的模型仍存在明显不足：其一，Mamba 通过一维顺序传播获取全局信息，对二维空间结构的显式建模能力有限；其二，缺乏显式的注意力机制，导致在处理高度异质的病灶或复杂背景时，无法对关键区域产生有区别的响应，可能造成边界模糊、结构信息丢失等问题。此外，传统 U 形架构中的跳跃连接通常采用简单的特征拼接或求和操作，存在语义鸿沟和无法自适应筛选关键信息的问题。
基于以上背景，本研究旨在解决现有 Mamba 模型在医学图像分割中关键区域聚焦能力不足和跨层特征交互薄弱两大核心挑战。研究目标是提出一种新颖的 U 形分割框架，通过引入创新的模块来增强模型对解剖关键区域的感知，并改善编码器与解码器之间的特征融合质量，从而在保持计算效率的同时，提升分割精度，特别是对于小目标、低对比度结构和模糊边界的分割性能。
三、 研究详细工作流程
本研究提出了一种名为 MCAVM-Unet 的新型医学图像分割模型。其核心是一个不对称的 U 形编码器-解码器架构，主要包含两个核心创新模块：多尺度卷积注意力视觉状态空间块 和大核通道-空间交互模块。研究流程主要包括模型设计、实验评估和消融研究。
1. 模型架构与核心模块设计： * 整体架构：编码器采用预训练的四层 VMamba 作为主干网络。输入图像首先通过一个补丁嵌入模块进行处理。编码器包含四个处理阶段，前三个阶段交替级联视觉状态空间块和下采样层，逐步降低空间维度并增加通道数；第四阶段则仅使用级联的状态空间块进行高分辨率特征精炼。解码器同样由四个阶段组成，集成了本研究提出的多尺度卷积注意力块、上采样层和大核交互模块。 * 多尺度卷积注意力视觉状态空间块：该模块是解码器的核心组件，旨在整合全局上下文建模、局部细节感知和自适应关键区域聚焦能力。其工作流程是顺序的： * 2D选择性扫描块：首先，该模块通过沿多个方向（左到右、右到左、上到下、下到上）进行选择性扫描，建立长程依赖关系，为特征提供全局语义基础。 * 卷积通道-空间注意力模块：随后，该模块利用卷积操作捕获局部空间细节，并通过一个自适应的通道-空间注意力机制重新校准特征重要性，增强对诊断关键区域的感知并抑制背景干扰。 * 多尺度卷积模块：最后，通过并行的深度可分离卷积（核尺寸为1×1, 3×3, 5×5）来聚合多尺度上下文信息，提升模型对不同尺寸解剖结构的鲁棒性。 * 大核通道-空间交互模块：该模块用于改进传统的跳跃连接，实现编码器与解码器特征之间的动态、双向交互。其工作流程包含三个步骤： * 特征精炼：使用大核注意力块分别对编码器和解码器特征进行初步精炼，扩大感受野并整合上下文信息。 * 跨通道重加权：引入一个双向跨通道重加权机制。编码器和解码器路径各自生成通道重要性权重，然后相互用于调制对方的特征表示。这使得每条路径都能根据另一条路径的语义偏好动态调整自身特征，实现显式的语义级交互与对齐。 * 空间级融合：将经过交互的特征在空间级别进行融合。通过通道最大池化卷积块提取跨通道最显著的空间激活，与平均池化路径的输出拼接，生成一个共享的空间权重图。该权重图对编码器和解码器特征进行同步但空间自适应的重加权，从而在边界敏感区域利用编码器的细节信息，在均匀区域利用解码器的语义上下文。
2. 实验评估流程： * 研究数据集：研究在三个公开的、具有不同成像模态的医学图像分割数据集上进行了系统评估： * Synapse 多器官 CT 数据集：包含30例3D腹部CT扫描（共3779张轴位图像），用于分割主动脉、胆囊、左右肾、肝脏、胰腺、脾脏和胃等八个器官。按既定标准划分为18例训练，12例测试。 * ACDC 心脏 MRI 数据集：包含100例心脏MRI扫描，分割右心室、左心室和心肌。按70例训练，10例验证，20例测试划分。 * UWF-RHS 超广角眼底出血数据集：包含2580张高质量视网膜出血图像及标注掩膜。按1812:252:516的比例划分训练、验证和测试集。仅使用绿色通道作为输入。 * 评估指标：采用五个指标全面评估模型性能：戴斯相似系数（Dice Similarity Coefficient, DSC）、95%豪斯多夫距离（95-percentile Hausdorff Distance, HD95）、准确率（Accuracy, ACC）、特异性（Specificity, SP）和灵敏度（Sensitivity, SE）。其中，DSC衡量区域重叠度，HD95衡量边界误差的稳健估计。 * 实现细节：实验在 NVIDIA GeForce RTX 3090 GPU 上进行，使用 PyTorch 框架。编码器主干使用在 ImageNet-1k 上预训练的 VMamba 权重初始化。采用随机旋转和翻转进行数据增强。使用 AdamW 优化器，初始学习率为 5e-4，并采用余弦退火调度。损失函数为 Dice 损失和交叉熵损失的加权组合（初始权重分别为0.6和0.4）。 * 对比方法：与一系列经典和先进的医学图像分割模型进行了对比，包括 U-Net, Attn-Unet, TransUNet, Swin-Unet, VM-Unet, MSVM-Unet 等。所有基线模型均使用与 MCAVM-Unet 相同的数据划分、增强策略和训练设置进行重新实现，以确保公平性。 * 消融研究：在 Synapse 数据集上进行了系统的消融实验，以评估每个提出的核心模块（大核交互模块 LCSIM、卷积通道-空间注意力 CoCS、多尺度卷积模块 MSCM）的独立贡献和协同效应。此外，还消融了多尺度卷积模块中不同卷积核组合的效果。
四、 主要研究结果
1. 在 Synapse 多器官CT数据集上的结果： MCAVM-Unet 取得了平均 DSC 86.24% 和 HD95 9.85 mm 的最佳性能，优于之前的先进模型 MSVM-Unet（85.00% / 14.75 mm）。在器官层面的提升尤其体现在小目标和低对比度结构上，例如胆囊（DSC 提升 +3.9%）和胰腺（DSC 提升 +2.34%）。可视化对比显示，对比方法常出现遗漏胰腺体部、过度分割胆囊、胃壁断裂或脾肾混淆等问题。而 MCAVM-Unet 能够同时恢复精细结构、细化边界并保持大轮廓的闭合性，仅在某些边缘区域有轻微向内偏差，整体 Dice 最高，展示了其在复杂腹部解剖结构中捕获精细结构的鲁棒性。
2. 在 ACDC 心脏MRI数据集上的结果： MCAVM-Unet 取得了平均 DSC 92.79%，略优于 MSVM-Unet（92.58%）。其中右心室和心肌的 DSC 达到最高（分别为91.38%和90.61%），左心室 DSC（96.36%）与最优结果持平。可视化分析表明，主流方法常对右心室游离壁中段召回不足，而 MCAVM-Unet 能实现右心室的全长连续性和心肌环的闭合，在薄壁和拓扑复杂的心脏结构上实现了稳定且精细的分割。
3. 在 UWF-RHS 眼底出血数据集上的结果： MCAVM-Unet 取得了平均 DSC 67.98%，超越次优的 SK-VM++（66.74%）1.24个百分点，同时保持了高特异性（99.80%）和准确率（99.62%）。在密集散布的微出血、大片状融合出血以及视盘与邻近出血过渡尖锐等典型场景中，对比方法常无法检测微小病灶、内部留有空洞或产生断裂边界。而 MCAVM-Unet 凭借其多尺度卷积和注意力机制，能成功识别微小出血点、完全填充内部区域，并在干扰下准确识别边缘，生成与金标准重叠度最高的分割掩膜。
4. 消融研究结果： 在 Synapse 数据集上的消融实验定量结果（见表4）清晰地展示了各模块的贡献： * 基线模型（无任何增强模块）的 DSC 为 83.97%，HD95 为 18.24 mm。 * 单独使用 LCSIM 模块将 DSC 提升至 84.77%，HD95 降至 17.01 mm，表明其通过扩大感受野和促进跨层交互有效提升了结构识别。 * 单独使用 CoCS 模块将 DSC 提升至 84.60%，并显著将 HD95 降低至 15.80 mm，证明了其在提升边界定位精度和小目标召回方面的关键作用。 * 单独使用 MSCM 模块将 DSC 提升至 84.62%，HD95 降至 16.97 mm，验证了其多尺度上下文聚合的有效性。 * 三者联合使用时，取得了最佳性能：DSC 86.24%，HD95 9.85 mm。相比基线，DSC 提升了 2.27个百分点，HD95 降低了 8.39 mm，而参数量和计算量仅分别增加了约7.5%和12.6%。这证明了三个模块在解决跨层语义对齐、自适应特征重校准和多尺度上下文聚合等关键挑战上的互补性与协同效应。 * 对 MSCM 中卷积核组合的消融表明，[1, 3, 5] 的配置在精度和计算效率上达到了最佳平衡。
五、 研究结论与价值
本研究成功提出了 MCAVM-Unet，一个基于视觉 Mamba 的医学图像分割框架。通过引入多尺度卷积注意力视觉状态空间块和大核通道-空间交互模块，该框架协同增强了局部结构细节建模和全局上下文依赖关系，并能够自适应地强调关键解剖区域、细化边界描绘。
在三个不同成像模态（CT, MRI, 眼底照相）的公开数据集上的广泛实验表明，MCAVM-Unet 取得了最先进的性能，特别是在分割具有挑战性的小器官（如胆囊、胰腺）、边界模糊的结构（如心肌、右心室）以及低对比度、广泛分布的病灶（如视网膜出血）方面表现突出。消融研究证实了每个组件的有效性。
MCAVM-Unet 为医学图像分割提供了一个精准、高效且泛化能力强的解决方案，成功地在模型能力和计算实用性之间取得了良好平衡。其性能提升，特别是 HD95 指标的显著降低，意味着模型边界安全性的提高，这对于减少临床放疗和影像工作流中所需的逐层手动修正工作量、提升临床可接受性具有直接的应用价值。
六、 研究亮点
创新性架构：首次在视觉 Mamba 框架中显式引入了多尺度卷积注意力机制，有效弥补了 Mamba 在空间归纳偏置和显式区域感知注意力方面的不足。
先进的跨层交互：提出了双向的、语义驱动的大核通道-空间交互模块，超越了传统跳跃连接的简单拼接，实现了编码器与解码器特征之间的动态、双向协商与对齐，显著提升了特征融合质量。
卓越的综合性能：在多个具有挑战性的数据集上实现了最先进的分割精度，尤其是在小目标、低对比度和复杂边界的分割任务上表现优异，展示了强大的泛化能力。
良好的效率-精度权衡：在引入增强模块带来显著性能提升的同时，保持了线性的计算复杂度增长，模型推理速度介于传统 Transformer 模型和轻量级 Mamba 变体之间，实现了精度与效率的有利平衡。
深入的消融与机理分析：通过系统的消融实验和特征图可视化，不仅定量评估了各模块的贡献，还定性地阐释了 LCSIM 等模块的工作原理（如增强关键空间线索、抑制背景噪声），增强了结果的可解释性。
七、 其他有价值的内容
研究在讨论部分还进行了有价值的局限性分析： * 肾脏分割性能差距：虽然整体性能领先，但 MCAVM-Unet 在 Synapse 数据集的肾脏分割 Dice 分数略低于某些先进的基于 Transformer 的模型。作者分析认为，这反映了模型归纳偏置与器官特性之间的匹配差异。Transformer 的全局自注意力在构建形状先验和保持肾脏复杂内部结构的完整性方面略有优势，而 MCAVM-Unet 更擅长捕捉局部方向性依赖和细化边界，在胰腺、胆囊等小目标上优势明显。这并非架构缺陷，而是不同方法优势的自然体现。 * 计算效率考量：MCAVM-Unet 的参数量（51.34M）高于一些纯 Mamba 模型，但其计算量（18.13G FLOPs）仅比 MSVM-Unet 增加约16.7%，这得益于深度可分离卷积等轻量级设计。其单切片推理时间（46.52 ms）在精度和速度间取得了良好折衷。作者指出这是一种有意识的设计权衡，并展望了通过结构化剪枝、知识蒸馏等策略进一步优化推理效率的未来方向。
这些分析体现了研究的严谨性和对模型特性全面、辩证的理解。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问