关于MAS-Net:一种基于记忆增强与补充的医学图像分割新方法的学术研究报告
一、 研究作者、机构及发表信息
本研究由来自辽宁工程技术大学电子与信息工程学院的张笑颜、赵正、孙伟强、孟祥福,海南大学计算机科学与技术学院的张永勤,以及北京科技大学计算机与通信工程学院的于春林共同完成。通讯作者为孟祥福教授。该研究成果以题为《MAS-Net: A Medical Image Segmentation Method Based on Memory Augmentation and Supplementation》的论文形式,发表于计算机视觉领域的国际期刊《Computer Vision and Image Understanding》2026年第269卷。论文已于2026年5月22日在线发布。
二、 学术背景与研究动机
本研究聚焦于医学图像分割这一计算机视觉与医学影像分析交叉领域的核心任务。精确的医学图像分割对于计算机辅助诊断、手术规划等临床应用至关重要。然而,该任务面临着诸多挑战:病灶边界模糊、病变区域大小可变、图像噪声、低对比度以及不规则形状等,使得从图像中提取有效特征变得异常困难。
随着深度学习技术的发展,卷积神经网络(CNN)和Transformer架构相继推动了该领域的进步。U-Net及其变体利用编码器-解码器结构和跳跃连接,有效整合了多尺度特征。然而,CNN受限于其局部感受野,难以有效捕捉长距离的空间依赖关系。而Transformer,特别是视觉Transformer(ViT),通过自注意力机制能够建模全局上下文信息,但在提取局部细节特征方面存在不足。为了结合两者优势,混合CNN-Transformer架构应运而生,例如TransUNet、TransFuse等。尽管这些方法在一定程度上提升了特征表示能力,但随着网络深度增加,一个关键问题日益凸显:模型在提取高阶抽象特征时,往往会忽略低层级的细节信息,导致关键的局部特征和空间关系丢失。这一问题在处理复杂的医学图像(如多器官CT切片)时尤为严重,可能导致小目标特征的丢失,从而影响分割精度。
因此,本研究旨在解决上述核心矛盾,即如何在深度网络中有效保留和增强低级细节信息,同时恢复模糊或不完整区域的特征。为此,研究团队提出了一种名为MAS-Net的新型医学图像分割方法,其核心创新在于引入了记忆增强(Memory Augmentation, MA) 和记忆补充(Memory Supplementation, MS) 技术,以提升模型对图像细节的表达能力和对模糊区域的修复能力。
三、 研究方法与详细工作流程
MAS-Net是一个基于编码器-解码器结构的混合网络,其整体架构设计精巧,包含多个核心模块。研究流程主要包括网络架构设计、模块功能实现、实验验证与消融分析。
1. 整体网络架构与编码器设计: MAS-Net采用并行特征提取的编码器架构,集成了Transformer和CNN模型。具体而言,使用PVTv2-b2(一种金字塔视觉Transformer)进行全局特征提取,同时使用ResNet34进行局部特征提取。编码器分为三层,每一层中PVT和ResNet提取的特征会进行融合,从而有效结合全局与局部信息。这种并行设计为后续的记忆操作提供了多层次的特征基础。
2. 核心创新模块的工作流程: 本研究提出了五个核心模块,其工作流程如下:
记忆增强(MA)模块(位于编码器):
跨层级特征融合(CLFF)模块:
多特征聚合(MFA)模块(位于解码器):
记忆补充(MS)模块(位于解码器):
门控融合(GF)模块:
3. 实验设计与数据处理流程: 研究在五个公开医学图像数据集上进行了全面评估: * Synapse多器官CT数据集: 30个3D腹部CT扫描,分割8个腹部器官。按18训练/12测试划分。评估指标为平均Dice相似系数(DSC)和95%豪斯多夫距离(HD)。 * ACDC心脏MRI数据集: 100个病例,分割左心室、右心室和心肌。按70训练/10验证/20测试划分。评估指标为平均DSC。 * ISIC2017、ISIC2018皮肤镜图像数据集和BUSI乳腺超声数据集: 分别包含2150、2694和647张图像。按8:2随机划分训练集和测试集。评估指标为DSC。
实验细节: 使用ImageNet预训练的PVTv2-b2和ResNet34作为编码器。对于不同数据集,设置了相应的训练周期、批次大小和图像分辨率。使用AdamW优化器。所有实验在NVIDIA A800 GPU上进行。
4. 数据分析工作流程: 通过定量指标(DSC, HD)对比MAS-Net与当前最先进(SOTA)方法的表现。通过可视化分割结果进行定性分析。通过系统的消融实验(逐一移除MA、CLFF、MFA、MS模块)验证每个核心组件的贡献。还进行了超参数敏感性分析(学习率)和编码器结构、MFA模块卷积核大小的消融研究。最后,对模型的计算效率(参数量、FLOPs、推理速度FPS)进行了对比分析。
四、 主要研究结果
1. 在Synapse数据集上的结果: MAS-Net取得了最优性能,平均DSC达到85.20%,HD为10.80 mm。与近期最先进的五个方法(MixFormer, CCViM, AHGNN, ParaTransCNN, EMCAD)相比,DSC分别提升了3.10%, 4.71%, 1.39%, 1.60% 和 1.88%,HD分别降低了1.87 mm, 4.01 mm, 2.46 mm, 5.06 mm 和 4.88 mm。特别是在胰腺(72.33%)和胃(87.25%)的分割上提升显著。可视化结果(图1,图3)显示,MAS-Net在检测小目标(如胆囊、胰腺)和保持器官边界完整性方面优于其他方法。
2. 在ACDC数据集上的结果: MAS-Net的平均DSC为91.90%,超越了Perspective+ (91.35%)、EMCAD (91.32%)和Cascade (91.28%)等方法,证明了其在心脏结构分割上的有效性和鲁棒性。
3. 在ISIC2017、ISIC2018和BUSI数据集上的结果: MAS-Net在三个数据集上分别取得了86.80%、91.41%和83.92%的DSC,均达到最优。尤其在更具挑战性的BUSI乳腺超声数据集上,相比EMCAD和Cascade方法,DSC提升了4.62%和5.96%,显示出其对不同模态医学图像的强大适应能力。可视化结果(图4)表明,MAS-Net能更准确地分割皮肤病变和乳腺肿瘤的边界。
4. 消融实验结果: 在Synapse数据集上的消融研究(表4)清晰证明了各模块的必要性: * 移除MA模块导致DSC下降1.02%,HD增加1.23mm,说明其在防止关键细节丢失方面作用关键。 * 移除CLFF模块导致DSC下降0.79%,HD大幅增加5.33mm,凸显了其整合多层级信息对于精确定位的重要性。 * 移除MFA模块导致DSC下降0.75%,HD增加2.43mm,证实了多尺度特征聚合能提升模型性能。 * 移除MS模块导致DSC下降1.10%,HD显著增加6.70mm,强调了其在恢复模糊区域特征、保证区域完整性方面的核心作用。 当所有模块协同工作时,模型达到最佳性能。可视化消融结果(图5)进一步显示,移除MA和MS模块会导致小器官识别错误。
5. 其他分析结果: * 超参数敏感性分析: 学习率设置为1e-4时模型性能最佳,表明较小的学习率更有利于提升分割精度和边界定位。 * 编码器消融研究: PVTv2_b2与ResNet34的组合效果最优,DSC为85.20%。 * MFA模块核大小消融: 使用3,5,7的卷积核组合优于1,3,5组合。 * 计算效率分析: MAS-Net在参数量(69.91M)、计算量(28.92G FLOPs)和推理速度(50.19 FPS)之间取得了较好的平衡,其复杂度远低于TransUNet和MixFormer,速度与MissFormer和HiFormer相当,整体效率优于Swin UNet。
6. 失败案例讨论(局限性): 研究也坦诚地指出了MAS-Net的局限性(图6)。在目标区域非常小且结构细微,或边界极其模糊、目标与周围组织对比度极低的情况下,模型可能出现分割不完整或过度分割的情况。此外,当图像风格、纹理分布和目标外观存在巨大差异时,模型的跨域泛化能力仍有待提升。
五、 研究结论与价值
本研究成功提出并验证了MAS-Net,一种基于记忆增强与补充机制的医学图像分割新框架。该研究的主要结论与价值如下:
科学价值: 1. 理论创新: 提出了“记忆增强”与“记忆补充”的新概念,为解决深度神经网络中低层细节丢失和高不确定性区域特征恢复这一长期挑战提供了新颖的思路。MA模块通过可学习的记忆库动态增强关键细节,MS模块通过不确定性引导主动补充模糊区域特征,二者协同工作,从不同角度保障了特征表示的完整性和鲁棒性。 2. 方法学贡献: 设计了一套完整的模块化解决方案,包括CLFF(跨层级融合)、MFA(多尺度聚合)和GF(门控融合),系统性地解决了多尺度特征整合、上下文信息利用和特征选择问题。这些模块共同构成了一个高效的特征处理流水线。 3. 性能验证: 在多个公开数据集(CT、MRI、皮肤镜、超声)上全面超越了现有SOTA方法,尤其是在小目标分割和复杂边界处理上表现突出,为医学图像分割领域设立了新的性能基准。
应用价值: 1. 提升临床辅助诊断精度: 更精确的器官和病灶分割结果,可以直接助力于计算机辅助诊断系统,为医生提供更可靠的量化分析和可视化支持。 2. 推动手术规划与导航: 在手术机器人、放射治疗规划等场景中,精确的分割是进行三维重建、剂量计算和路径规划的基础。MAS-Net的高精度和鲁棒性有助于提升这些应用的可靠性。 3. 促进医学影像分析研究: 所提出的模块具有一定的通用性,其设计思想可迁移至其他医学图像分析任务,如检测、分类等,启发新的网络架构设计。
六、 研究亮点
七、 其他有价值内容
论文还提供了完整的代码开源链接(https://github.com/zz0226zz/mas-net),遵循了可重复研究的原则,方便其他研究者复现和进一步研究。作者团队也明确声明无已知竞争性财务利益或个人关系,确保了研究的客观性。这项研究得到了辽宁省自然科学基金联合计划项目的支持。