分享自:

基于记忆增强与补充的医学图像分割网络MAS-Net

期刊:computer vision and image understandingDOI:10.1016/j.cviu.2026.104816

关于MAS-Net:一种基于记忆增强与补充的医学图像分割新方法的学术研究报告

一、 研究作者、机构及发表信息

本研究由来自辽宁工程技术大学电子与信息工程学院的张笑颜、赵正、孙伟强、孟祥福,海南大学计算机科学与技术学院的张永勤,以及北京科技大学计算机与通信工程学院的于春林共同完成。通讯作者为孟祥福教授。该研究成果以题为《MAS-Net: A Medical Image Segmentation Method Based on Memory Augmentation and Supplementation》的论文形式,发表于计算机视觉领域的国际期刊《Computer Vision and Image Understanding》2026年第269卷。论文已于2026年5月22日在线发布。

二、 学术背景与研究动机

本研究聚焦于医学图像分割这一计算机视觉与医学影像分析交叉领域的核心任务。精确的医学图像分割对于计算机辅助诊断、手术规划等临床应用至关重要。然而,该任务面临着诸多挑战:病灶边界模糊、病变区域大小可变、图像噪声、低对比度以及不规则形状等,使得从图像中提取有效特征变得异常困难。

随着深度学习技术的发展,卷积神经网络(CNN)和Transformer架构相继推动了该领域的进步。U-Net及其变体利用编码器-解码器结构和跳跃连接,有效整合了多尺度特征。然而,CNN受限于其局部感受野,难以有效捕捉长距离的空间依赖关系。而Transformer,特别是视觉Transformer(ViT),通过自注意力机制能够建模全局上下文信息,但在提取局部细节特征方面存在不足。为了结合两者优势,混合CNN-Transformer架构应运而生,例如TransUNet、TransFuse等。尽管这些方法在一定程度上提升了特征表示能力,但随着网络深度增加,一个关键问题日益凸显:模型在提取高阶抽象特征时,往往会忽略低层级的细节信息,导致关键的局部特征和空间关系丢失。这一问题在处理复杂的医学图像(如多器官CT切片)时尤为严重,可能导致小目标特征的丢失,从而影响分割精度。

因此,本研究旨在解决上述核心矛盾,即如何在深度网络中有效保留和增强低级细节信息,同时恢复模糊或不完整区域的特征。为此,研究团队提出了一种名为MAS-Net的新型医学图像分割方法,其核心创新在于引入了记忆增强(Memory Augmentation, MA)记忆补充(Memory Supplementation, MS) 技术,以提升模型对图像细节的表达能力和对模糊区域的修复能力。

三、 研究方法与详细工作流程

MAS-Net是一个基于编码器-解码器结构的混合网络,其整体架构设计精巧,包含多个核心模块。研究流程主要包括网络架构设计、模块功能实现、实验验证与消融分析。

1. 整体网络架构与编码器设计: MAS-Net采用并行特征提取的编码器架构,集成了Transformer和CNN模型。具体而言,使用PVTv2-b2(一种金字塔视觉Transformer)进行全局特征提取,同时使用ResNet34进行局部特征提取。编码器分为三层,每一层中PVT和ResNet提取的特征会进行融合,从而有效结合全局与局部信息。这种并行设计为后续的记忆操作提供了多层次的特征基础。

2. 核心创新模块的工作流程: 本研究提出了五个核心模块,其工作流程如下:

  • 记忆增强(MA)模块(位于编码器):

    • 目标: 防止随着网络深度增加而丢失关键的低层细节信息。
    • 流程: 该模块定义了一个可学习的记忆模块 *M*,包含 Nm 个记忆项。对于编码器每一层输出的特征图 *f*,首先计算其与所有记忆项的相关性(匹配分数),并通过Softmax归一化得到寻址注意力权重矩阵 *W*。然后,根据权重矩阵 W 聚合所有记忆项,生成一个增强的特征表示 *f’*。这个过程可以自适应地强调与输入特征最相关的细节信息。最后,通过残差连接将原始特征 f 与增强特征 f’ 融合,得到MA模块的输出 *s*。该操作应用于编码器的每一层输出(*f1, f2, f3*),产生相应的增强特征 *s1, s2, s3*。
  • 跨层级特征融合(CLFF)模块:

    • 目标: 有效整合编码器中不同层级的特征,捕获从低到高的多级上下文信息,缓解因分辨率和语义差距造成的融合困难。
    • 流程: 该模块接收MA模块输出的三层增强特征 *s1, s2, s3*(分别代表浅、中、深层特征)。首先对深层特征 s3 进行上采样并与中层特征 s2 进行逐元素相乘,利用高层语义信息调制中层特征。接着,将处理后的中、深层特征上采样至与浅层特征 s1 相同的分辨率。然后,将浅层特征 s1 与上采样后的中、深层特征逐元素相乘,使浅层细节受到中高层语义的约束。最后,将处理后的浅层特征与融合了中、深层信息的特征进行通道拼接,生成最终的跨层级融合特征 *cf(1,2,3)*。
  • 多特征聚合(MFA)模块(位于解码器):

    • 目标: 通过多尺度局部建模,增强模型对不同尺度目标、边界纹理和复杂结构变化的感知能力。
    • 流程: 首先对输入特征依次应用通道注意力(CA)和空间注意力(SA)进行增强。随后,将增强后的特征沿通道维度均匀分为四个子特征。这四个子分支采用不同的局部建模策略:一个分支使用最大池化(Max-Pooling)保留显著局部响应;其余三个分支分别使用3×3、5×5、7×7的卷积核进行不同尺度的特征提取。之后,引入一个渐进式的逐元素相乘机制来融合这些分支的输出,以加强多尺度分支间的一致性约束。最后,将所有分支增强后的特征沿通道维度拼接,并通过1×1卷积进行通道压缩,输出最终的多尺度聚合特征 *mi*。
  • 记忆补充(MS)模块(位于解码器):

    • 目标: 针对特征融合中对高不确定性区域(如边界模糊、结构复杂区域)关注不足的问题,恢复缺失的细节。
    • 流程: 对于第 i 层,输入包括来自更深层的预测特征图 pre_i 和当前层的浅层特征 si 及局部特征 *mi*。首先,对 pre_i 应用Sigmoid函数激活,并计算一个不确定性感知的注意力得分图 *AS_i*。其设计核心是:当预测值接近0.5(模型不确定)时,该位置获得较大的注意力权重;当预测值接近0或1(模型确信)时,权重减小。然后,用这个注意力图对浅层特征 si 进行加权,在不确定性信息的引导下显式增强模糊区域的浅层细节。最后,将加权后的浅层细节与当前层的局部特征 mi 相加,从而在补充局部语义信息的同时,强化对模糊区域的响应,得到更全面的融合表示 *pi*。
  • 门控融合(GF)模块:

    • 目标: 通过学习的门控信号,逐步整合网络中不同阶段的特征,增强相关信息的表示,抑制无关信息。
    • 流程: 以融合记忆增强特征 si 和记忆补充特征 pi 为例。首先,分别对两者进行卷积-批归一化-激活函数(CBR)处理,投影到统一特征空间。然后将两个中间表示相加得到融合特征 *g*。接着,将 g 输入一个输出通道为1的CBR模块,生成单通道特征图,再经过Sigmoid函数得到注意力分数。最后,将该注意力分数与记忆增强特征图 si 逐元素相乘,从而利用融合的上下文信息显式地调制记忆增强特征,自适应地强调与分割目标最相关的响应。

3. 实验设计与数据处理流程: 研究在五个公开医学图像数据集上进行了全面评估: * Synapse多器官CT数据集: 30个3D腹部CT扫描,分割8个腹部器官。按18训练/12测试划分。评估指标为平均Dice相似系数(DSC)和95%豪斯多夫距离(HD)。 * ACDC心脏MRI数据集: 100个病例,分割左心室、右心室和心肌。按70训练/10验证/20测试划分。评估指标为平均DSC。 * ISIC2017、ISIC2018皮肤镜图像数据集和BUSI乳腺超声数据集: 分别包含2150、2694和647张图像。按8:2随机划分训练集和测试集。评估指标为DSC。

实验细节: 使用ImageNet预训练的PVTv2-b2和ResNet34作为编码器。对于不同数据集,设置了相应的训练周期、批次大小和图像分辨率。使用AdamW优化器。所有实验在NVIDIA A800 GPU上进行。

4. 数据分析工作流程: 通过定量指标(DSC, HD)对比MAS-Net与当前最先进(SOTA)方法的表现。通过可视化分割结果进行定性分析。通过系统的消融实验(逐一移除MA、CLFF、MFA、MS模块)验证每个核心组件的贡献。还进行了超参数敏感性分析(学习率)和编码器结构、MFA模块卷积核大小的消融研究。最后,对模型的计算效率(参数量、FLOPs、推理速度FPS)进行了对比分析。

四、 主要研究结果

1. 在Synapse数据集上的结果: MAS-Net取得了最优性能,平均DSC达到85.20%,HD为10.80 mm。与近期最先进的五个方法(MixFormer, CCViM, AHGNN, ParaTransCNN, EMCAD)相比,DSC分别提升了3.10%, 4.71%, 1.39%, 1.60% 和 1.88%,HD分别降低了1.87 mm, 4.01 mm, 2.46 mm, 5.06 mm 和 4.88 mm。特别是在胰腺(72.33%)和胃(87.25%)的分割上提升显著。可视化结果(图1,图3)显示,MAS-Net在检测小目标(如胆囊、胰腺)和保持器官边界完整性方面优于其他方法。

2. 在ACDC数据集上的结果: MAS-Net的平均DSC为91.90%,超越了Perspective+ (91.35%)、EMCAD (91.32%)和Cascade (91.28%)等方法,证明了其在心脏结构分割上的有效性和鲁棒性。

3. 在ISIC2017、ISIC2018和BUSI数据集上的结果: MAS-Net在三个数据集上分别取得了86.80%、91.41%和83.92%的DSC,均达到最优。尤其在更具挑战性的BUSI乳腺超声数据集上,相比EMCAD和Cascade方法,DSC提升了4.62%和5.96%,显示出其对不同模态医学图像的强大适应能力。可视化结果(图4)表明,MAS-Net能更准确地分割皮肤病变和乳腺肿瘤的边界。

4. 消融实验结果: 在Synapse数据集上的消融研究(表4)清晰证明了各模块的必要性: * 移除MA模块导致DSC下降1.02%,HD增加1.23mm,说明其在防止关键细节丢失方面作用关键。 * 移除CLFF模块导致DSC下降0.79%,HD大幅增加5.33mm,凸显了其整合多层级信息对于精确定位的重要性。 * 移除MFA模块导致DSC下降0.75%,HD增加2.43mm,证实了多尺度特征聚合能提升模型性能。 * 移除MS模块导致DSC下降1.10%,HD显著增加6.70mm,强调了其在恢复模糊区域特征、保证区域完整性方面的核心作用。 当所有模块协同工作时,模型达到最佳性能。可视化消融结果(图5)进一步显示,移除MA和MS模块会导致小器官识别错误。

5. 其他分析结果: * 超参数敏感性分析: 学习率设置为1e-4时模型性能最佳,表明较小的学习率更有利于提升分割精度和边界定位。 * 编码器消融研究: PVTv2_b2与ResNet34的组合效果最优,DSC为85.20%。 * MFA模块核大小消融: 使用3,5,7的卷积核组合优于1,3,5组合。 * 计算效率分析: MAS-Net在参数量(69.91M)、计算量(28.92G FLOPs)和推理速度(50.19 FPS)之间取得了较好的平衡,其复杂度远低于TransUNet和MixFormer,速度与MissFormer和HiFormer相当,整体效率优于Swin UNet。

6. 失败案例讨论(局限性): 研究也坦诚地指出了MAS-Net的局限性(图6)。在目标区域非常小且结构细微,或边界极其模糊、目标与周围组织对比度极低的情况下,模型可能出现分割不完整或过度分割的情况。此外,当图像风格、纹理分布和目标外观存在巨大差异时,模型的跨域泛化能力仍有待提升。

五、 研究结论与价值

本研究成功提出并验证了MAS-Net,一种基于记忆增强与补充机制的医学图像分割新框架。该研究的主要结论与价值如下:

科学价值: 1. 理论创新: 提出了“记忆增强”与“记忆补充”的新概念,为解决深度神经网络中低层细节丢失和高不确定性区域特征恢复这一长期挑战提供了新颖的思路。MA模块通过可学习的记忆库动态增强关键细节,MS模块通过不确定性引导主动补充模糊区域特征,二者协同工作,从不同角度保障了特征表示的完整性和鲁棒性。 2. 方法学贡献: 设计了一套完整的模块化解决方案,包括CLFF(跨层级融合)、MFA(多尺度聚合)和GF(门控融合),系统性地解决了多尺度特征整合、上下文信息利用和特征选择问题。这些模块共同构成了一个高效的特征处理流水线。 3. 性能验证: 在多个公开数据集(CT、MRI、皮肤镜、超声)上全面超越了现有SOTA方法,尤其是在小目标分割和复杂边界处理上表现突出,为医学图像分割领域设立了新的性能基准。

应用价值: 1. 提升临床辅助诊断精度: 更精确的器官和病灶分割结果,可以直接助力于计算机辅助诊断系统,为医生提供更可靠的量化分析和可视化支持。 2. 推动手术规划与导航: 在手术机器人、放射治疗规划等场景中,精确的分割是进行三维重建、剂量计算和路径规划的基础。MAS-Net的高精度和鲁棒性有助于提升这些应用的可靠性。 3. 促进医学影像分析研究: 所提出的模块具有一定的通用性,其设计思想可迁移至其他医学图像分析任务,如检测、分类等,启发新的网络架构设计。

六、 研究亮点

  1. 核心机制新颖: 首次将“记忆增强”与“记忆补充”机制系统性地引入医学图像分割网络,创造性地解决了特征丢失与模糊区域修复问题。
  2. 架构设计精巧: 采用并行编码器融合CNN与Transformer优势,并设计MA、MS、CLFF、MFA、GF五个功能明确、相互配合的模块,形成了层次清晰、逻辑严谨的网络架构。
  3. 实验验证全面: 在五个不同类型、不同模态的权威数据集上进行了充分验证,不仅展示了优异的定量指标,还通过详尽的消融实验、可视化对比和失败案例分析,深入论证了各模块的有效性和模型的优缺点,工作扎实可信。
  4. 兼顾性能与效率: 在取得显著性能提升的同时,模型在参数量、计算复杂度和推理速度之间取得了良好的平衡,具备实际部署的潜力。

七、 其他有价值内容

论文还提供了完整的代码开源链接(https://github.com/zz0226zz/mas-net),遵循了可重复研究的原则,方便其他研究者复现和进一步研究。作者团队也明确声明无已知竞争性财务利益或个人关系,确保了研究的客观性。这项研究得到了辽宁省自然科学基金联合计划项目的支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com