ScalEMA-Net：一种用于医学图像分割的尺度感知多层次聚合网络

分享自：
ScalEMA-Net：一种用于医学图像分割的尺度感知多层次聚合网络

期刊:Biomedical Signal Processing and ControlDOI:10.1016/j.bspc.2026.109971
本文研究的作者是中国西华师范大学的苏晨红、王娟，广安理工学院的曹俊阳，攀枝花大学的罗学刚和吕俊睿，以及川北医学院的赖思雨。该研究成果以“Scalema-Net: Scale-aware multi-level aggregation network for medical image segmentation”为题，发表在学术期刊《Biomedical Signal Processing and Control》上，于2026年3月在线发表。
一、 学术背景
本研究属于医学图像分割领域。医学图像分割在病灶检测、器官勾画和治疗规划等临床应用中至关重要。然而，医学图像通常具有组织边界模糊、对比度低、器官和病变的形状大小差异显著等固有挑战。此外，从不同成像模态（如核磁共振MRI、计算机断层扫描CT、超声、病理学）获取的数据集在解剖尺度和视觉特征上存在巨大差异，这为设计有效的分割模型带来了复杂性。
尽管已有许多方法被提出以应对这些挑战，例如基于U-Net的编码器-解码器结构、基于Transformer的全局依赖建模模型，以及新兴的具备线性复杂度的状态空间模型（State Space Models, SSMs），但当前研究仍存在几个关键问题：1）现有特征表示难以捕获多尺度的解剖结构变化，难以在统一框架内准确分割小病灶和大器官；2）编码器-解码器的跳跃连接可能传播低层噪声，损害解码特征的边界定位；3）许多模型学习到的表示与特定的成像特征或采集设置紧密耦合，限制了其在不同数据集间的灵活性；4）许多近期方法主要在特定基准或解剖目标上进行设计和评估，可能限制了它们在更广泛和异质的医学成像场景中的适用性。
基于此，本研究的核心目标是开发一个能够有效处理医学图像多尺度特性、语义不一致性，并具有良好跨模态泛化能力的统一分割框架。研究旨在结合视觉状态空间模型（Vision State Space Models, VSSM）在长程依赖建模上的效率优势，以及精心设计的解码器模块来增强多尺度特征表示与融合，从而提升分割精度和鲁棒性。
二、 详细工作流程
本研究的工作流程围绕提出的全新分割框架——Scalema-Net的构建、训练、验证与评估展开。整个研究主要包含以下几个环节：算法框架设计、在多个公开数据集上的实验验证、消融实验分析。
1. 算法框架设计 Scalema-Net是一个对称的编码器-解码器架构，主要由四个核心组件构成： * 编码器 (Encoder)：采用视觉导向的状态空间模型（Vision-oriented State-Space Model, VSSM）作为主干网络。VSSM基于Mamba模型的2D选择性扫描（2D-selective-scan, SS2D）机制，能够以线性计算复杂度高效地建模图像中的长程空间依赖关系，捕获全局上下文信息。 * 跳跃增强模块 (Skip Augment Module)：这是对传统跳跃连接的改进模块。其目的是抑制从编码器传递到解码器的低级特征中的背景噪声，同时增强与目标（如病灶、器官）相关的边界信息。该模块采用多分支空洞卷积（Dilated Convolution）结构，使用不同的空洞率（1， 2， 4， 8）来捕获从局部细节到全局语义的多尺度上下文。每个分支后接通道注意力（Channel Attention）模块，最后将多尺度特征拼接、融合，再通过空间注意力（Spatial Attention）模块生成空间权重热图，从而有选择性地增强目标区域、抑制背景。 * 多核分解注意力解码器 (Multi-kernel Decomposed Attention Decoder, MKDA)：该解码器旨在增强多尺度语义表示。它采用多分支架构，将大核卷积（如3x3， 5x5， 7x7， 9x9）与注意力机制相结合。每个分支使用不同大小的卷积核来建模不同尺度的空间上下文，并结合一种名为LKA（Large Kernel Attention）的注意力机制，该机制通过分解大核卷积（如使用垂直和水平条状卷积）来高效地增强方向感知的上下文建模能力。最终，各分支的注意力加权输出被聚合，以同时捕获细粒度局部结构和粗粒度全局区域。 * 多尺度有效特征聚合模块 (Multi-scale Effective Feature Aggregation Module, MSEFA)：此模块用于促进解码器不同层级特征间的语义一致性。它采用分层融合策略，将来自两个相邻解码器层级的特征（例如，来自浅层的细节特征和来自深层上采样后的语义特征）作为输入。通过应用多个不同核大小的并行卷积来提取多尺度上下文，然后利用通道和空间注意力机制进行精炼和加权融合。最终，该模块会输出针对“小”、“中”、“大”不同尺寸目标敏感的特征集合，以更好地适应医学图像中目标尺寸的极端变化。
模型训练时，针对二分类分割任务，采用二元交叉熵损失（Binary Cross-Entropy, BCE）与Dice损失的加权组合；针对多分类分割任务，则采用交叉熵损失（Cross-Entropy, CE）与Dice损失的加权组合。
2. 实验对象与数据处理 研究在七个公开的医学图像分割数据集上进行了广泛的实验，涵盖2D和3D模态，具体包括： * 2D数据集： * MoNuSeg (病理， 51张图像， 训练37， 测试14) * GlaS (病理， 165张图像， 训练85， 测试80) * ISIC2017 (皮肤镜， 2750张图像， 训练2000， 验证150， 测试600) * BUSI (乳腺超声， 780张图像， 训练518， 验证132， 测试130) * Polyp (内窥镜， 1993张图像， 训练1451， 测试542， 包含Kvasir， ClinicDB， CVC-ColonDB子集) * 3D数据集： * Synapse (腹部CT， 30个体积数据， 训练18， 测试12， 分割8个腹部器官) * ACDC (心脏MRI， 150个体积数据， 训练100， 测试50， 分割左心室、右心室、心肌) 所有输入图像均被统一调整至固定分辨率（如256x256），并采用了随机旋转和水平/垂直翻转等在线数据增强技术。
3. 实验与评估流程 * 实现细节：使用PyTorch框架，在单张NVIDIA Tesla V100 GPU上进行。使用AdamW优化器，余弦退火学习率调度器，训练300个周期。最佳模型根据验证集上的最高Dice分数选取。 * 评估指标：对于二分类分割任务，主要使用Dice相似系数（DSC）；对于多分类分割任务（如Synapse， ACDC），使用平均Dice系数（mDSC）和95%豪斯多夫距离（HD95）作为评估指标，后者用于衡量分割边界的最大误差。 * 对比方法：研究将Scalema-Net与大量当前最先进（state-of-the-art）的方法进行了全面比较，包括经典的U-Net及其变体（如Att-UNet， UNet++）、基于Transformer的模型（如TransUNet， Swin-UNet， MedT）、以及其他近期提出的高效模型（如UCTransNet， PVT-EMCAD-B2， VMamba等）。为确保公平性，所有复现的对比模型均在统一的训练框架下进行。 * 消融实验 (Ablation Study)：为了验证每个提出模块的贡献，研究设计了一系列系统性的消融实验。这些实验在GlaS， MoNuSeg， BUSI和ISIC2017数据集上进行，通过逐一移除或替换框架中的关键组件（如不同的编码器骨干网络、不同的解码器设计、MSEFA模块的不同尺度分支组合、跳跃增强模块中不同的空洞率设置），来定量分析每个组件对最终分割性能的影响。
三、 主要结果
1. 定量比较结果 * 在2D数据集上：Scalema-Net在多个二分类分割数据集上取得了领先或极具竞争力的性能。例如，在BUSI数据集上取得了最高的Dice分数（83.18%），在ISIC2017（91.23%）、GlaS（92.17%）和MoNuSeg（83.48%）上也表现优异。特别是在内窥镜息肉分割数据集上，Scalema-Net在ClinicDB和Kvasir子集上分别达到了94.52%和94.00%的mDSC，显著优于DS-TransUNet、PVT-EMCAD-B2等强基线模型。在极具挑战性的CVC-ColonDB子集上，也取得了86.85% mDSC和78.54% mIoU的优异结果，超越了PolyPer和ColonFormer等方法，证明了其在复杂背景干扰和模糊边界情况下的强大处理能力。 * 在3D数据集上： * Synapse多器官分割：Scalema-Net取得了83.93%的平均Dice系数，表现非常具有竞争力。对于左肾（93.01%）、右肾（89.97%）和脾脏（93.14%）等结构的分割尤其出色。更重要的是，其HD95距离仅为8.35，远低于其他主流方法，这表明该模型在边界定位方面具有显著优势。 * ACDC心脏分割：模型在左心室（LV）分割上取得了96.09%的Dice系数，与当前最优方法相当。然而，在右心室（RV）和心肌（Myo）上的表现略低于专门为心脏MRI优化的方法（如PVT-EMCAD-B2），整体平均Dice为89.78%。作者分析认为，这可能是因为VSSM的顺序建模特性在处理环状心肌这种对精确拓扑和细微强度变化依赖极强的结构时，不如PVT的全局注意力机制直接有效。这揭示了Scalema-Net在处理某些具有高度特异性解剖结构的数据集时的潜在局限。
2. 定性可视化结果 可视化对比清晰地展示了Scalema-Net的优势。在皮肤病变（ISIC2017）、病理组织（GlaS， MoNuSeg）等图像上，相比传统U-Net及其变体容易产生的边缘抖动或断裂，Scalema-Net输出的分割轮廓更加平滑、连续，与真实标注更吻合。对于形状复杂、尺寸各异的区域（如腺体开口、细胞核簇），该模型能更准确地保留微小的凹凸结构。在低对比度或显著噪声的切片中，其他方法可能将背景纹理误判为前景，而Scalema-Net通过多尺度上下文融合和注意力机制，有效抑制了噪声，减少了假阳性。在Synapse数据集的多器官分割三维可视化中，Scalema-Net不仅能准确定位大器官（如肝脏、脾脏），还能保持形态复杂的小器官（如胰腺、肾上腺）的完整解剖结构，且误分割区域更少。
3. 消融实验结果 消融实验为每个模块的有效性提供了强有力的数据支持： * 编码器选择：VSSM编码器在各项指标上均显著优于ResNet50和Swin Transformer骨干网络，平均Dice提升超过2%，验证了状态空间模型在医学图像长程建模上的优越性。 * MSEFA模块：同时使用“小”、“中”、“大”三个尺度分支进行融合的配置（即完整版）在所有数据集上均取得了最佳性能。仅使用部分分支组合会导致性能明显下降，证明了多尺度分层融合的必要性和互补性。 * 解码器设计：提出的MKDA解码器在性能上持续优于其他CNN解码器设计（如Inception， ResNet50， RepVGG），证实了将大核卷积与注意力机制整合对于解码分层特征和语义精炼的有效性。 * 模块渐进集成：从基础的VSSM编码器+标准U-Net解码器开始，逐步加入MKDA解码器、MSEFA模块和跳跃增强模块，模型性能在四个数据集上均获得一致且显著的提升（例如，ISIC2017的Dice从84.24%提升至91.14%）。虽然参数量和计算量有所增加，但性能提升的幅度证明了这种开销是合理的。 * 空洞率配置：跳跃增强模块中使用[1, 2, 4, 8]的空洞率配置取得了最佳性能，平衡了从细粒度纹理到全局语义的连续尺度覆盖，避免了过大空洞率导致的“网格效应”和局部细节丢失。
4. 计算效率分析 在NVIDIA Tesla V100 GPU上，对于256x256的输入图像，Scalema-Net的平均推理时间约为18毫秒（约55帧/秒），峰值GPU内存消耗为1.2GB。这一性能显著超过了实时处理（通常25-30帧/秒）的阈值，证明了其在临床实时应用（如内窥镜导航）中的部署可行性。
四、 结论与价值
本研究提出并验证了Scalema-Net，这是一个为多样化医学图像分析场景量身定制的统一分割框架。该框架的核心贡献在于创新性地将高效的视觉状态空间模型编码器与一系列精心设计、旨在解决医学图像分割特有挑战的解码器侧模块（MKDA， MSEFA， 跳跃增强）进行了协同集成。
研究的科学价值在于：第一，证明了状态空间模型作为医学图像分割编码器骨干的有效性和效率，为后续研究提供了新方向。第二，系统地提出并验证了针对多尺度变化、跨层级语义不一致性及跳跃连接噪声问题的解决方案，这些模块设计具有通用参考价值。第三，通过在七个涵盖多种模态和任务的公开数据集上取得广泛而优异的性能，证明了该框架强大的跨模态泛化能力，而非局限于特定任务或数据集。
其应用价值显著：Scalema-Net在保持高分割精度的同时，具备合理的计算开销和实时推理能力，为临床辅助诊断、手术规划和影像分析工具的开发提供了一个高性能、可泛化的基础模型选择。
五、 研究亮点
架构创新与协同：首次将视觉状态空间模型（VSSM）作为编码器，与专门针对医学图像特性设计的MKDA解码器、MSEFA融合模块和跳跃增强模块进行深度融合，形成了一个解决医学图像分割核心痛点的完整方案。
针对性的模块设计： 跳跃增强模块：明确针对跳跃连接噪声问题，通过多尺度空洞卷积和双重注意力机制进行特征净化与增强，改善了边界定位。
MKDA解码器：通过多分支大核注意力机制，有效统一了对全局上下文和局部细节的建模。
MSEFA模块：通过分层和注意力加权的多尺度融合，解决了不同解码层级间的语义鸿沟，提升了对尺寸多变目标的捕获能力。
广泛而严谨的验证：在七个公开的2D/3D数据集上进行了全面实验和与大量SOTA方法的对比，并辅以系统的消融研究和定性可视化，结论可靠，说服力强。
性能与效率的平衡：在取得竞争性分割精度的同时，保持了线性复杂度的效率优势，并证明了其实时部署的临床可行性。
六、 其他有价值的讨论
作者在讨论部分也坦诚地指出了当前工作的局限性和未来方向：首先，模型在ACDC心脏数据集上未能超越特定优化方法，揭示了其顺序建模在处理某些特定拓扑结构时的潜在不足。其次，在BUSI超声数据集中，模型偶尔会受限于低对比度和声影伪影。针对这些，作者提出了未来的研究方向：1）将2D-VSSM扩展到原生3D架构，以直接捕获体积数据中的空间相关性；2）通过模型量化、剪枝等技术开发轻量化变体，以适应资源受限的边缘设备部署；3）研究无监督域适应策略，以进一步提升模型在不同扫描设备和中心间的泛化能力。这些讨论为后续研究提供了清晰的路线图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问