基于多尺度融合感知的医学语义分割模型

分享自：
基于多尺度融合感知的医学语义分割模型

期刊:Biomedical Signal Processing and ControlDOI:10.1016/j.bspc.2025.108481
关于医学影像分割新模型MSSM-MFP的学术研究报告
本文旨在向中文研究界介绍一篇近期发表于*Biomedical Signal Processing and Control*期刊的研究工作。该论文由来自Jiangsu Normal University的Peilin Zhang与Yongquan Dong（通讯作者），以及来自Xuzhou Municipal First People’s Hospital的Junchi Li和Le Jiang等作者共同完成。论文题为《mssm-mfp: medical semantic segmentation model based on multiscale fusion perception》，主要报告了一种针对医学图像语义分割任务提出的新型深度学习模型，旨在提升对病灶区域分割的精度与效率。
一、 学术背景
本研究隶属于医学图像处理与计算机辅助诊断（CAD）领域，特别是其中的语义分割（Semantic Segmentation）分支。癌症是全球性的重大公共卫生挑战，其中乳腺癌与结直肠癌尤为常见，严重威胁患者健康。医学影像技术（如X射线、CT、MRI）是癌症筛查、诊断和评估的关键手段。然而，传统的影像解读高度依赖医生手动勾画病灶区域，此过程不仅耗时费力，且受观察者主观经验影响，导致诊断的一致性与客观性难以保证。
随着计算机视觉与人工智能的发展，基于语义分割的自动化方法成为医学影像分析的研究热点。早期的全卷积网络（FCN）及其改进模型（如U-Net）为医学图像分割奠定了基础。然而，传统卷积神经网络（CNN）主要建模局部特征，难以有效捕获全局上下文信息。虽然Transformer、Mamba等模型试图解决全局信息建模问题，但其往往伴随着巨大的计算复杂度。另一方面，一些轻量级模型虽降低了计算负担，却又常以牺牲分割精度，特别是对图像细微结构和边缘的捕捉能力为代价。因此，如何在保持高分割精度的同时，控制模型的计算复杂度，使其能在资源受限的临床环境中部署，成为亟待解决的关键问题。本研究即在此背景下展开，其核心目标是设计一个能够平衡精度与效率的医学语义分割模型。
二、 研究流程与方法
本研究提出了一个名为MSSM-MFP（基于多尺度融合感知的医学语义分割模型）的端到端深度学习模型。其核心研究流程围绕模型架构设计、模块创新与实验验证展开。
模型总体架构与研究对象： 该模型采用对称的编码器-解码器U形架构。编码器负责从输入图像中提取多层次特征，解码器则负责根据这些特征恢复出像素级的分割图。研究使用了三个公开的医学影像数据集进行模型训练与评估：BUSI（乳腺癌超声图像数据集，使用647张包含良恶性病灶的图像）、Glas（结直肠腺体组织病理学图像数据集，165张图像）和ISIC2016（皮肤镜图像数据集，600张图像）。所有图像均被统一缩放至224x224像素，并采用了随机旋转和翻转等数据增强技术以提升模型泛化能力。模型使用包含二元交叉熵和Dice损失的组合损失函数进行优化，采用Adam优化器，在配备NVIDIA GeForce RTX 4060 Ti的工作站上使用PyTorch框架实现。
创新模块与处理流程： 模型的创新性主要体现在三个核心模块的设计上，这些模块被集成到编码器和解码器的关键位置。
a) 多类融合模块（Multiple Class Fusion Module， MCF）： 该模块位于编码器中，旨在通过多尺度卷积操作捕获不同感受野下的图像特征。具体而言，每个MCF块包含两层卷积操作。第一层采用标准的3x3卷积（padding=1， dilation rate=1）。第二层则采用空洞卷积（Dilated Convolution），但其空洞率（dilation rate）在编码器的三个不同层级中分别设置为1、3和5，对应的padding也相应调整为1、3、5。这种设计使得模型能够在不同层级上感知从局部细节到更广泛上下文的信息。特征首先经过第一层卷积、批归一化（Batch Normalization, BN）、最大池化和GELU激活函数；然后送入具有特定空洞率的第二层卷积，再经GELU激活后输出。通过这种方式，MCF模块在不显著增加计算开销的前提下，扩展了网络的感受野，增强了模型对医学图像中复杂结构和微小变化的感知能力。
b) 多尺度注意力门机制（Multiscale Attention Gate， MAG）： 此机制是模型实现特征选择与融合的关键，其设计灵感来源于人类视觉系统处理多尺度信息的能力。MAG模块对输入特征图并行进行四种卷积操作：1x1点卷积、标准3x3卷积（dilation=1）、局部空洞卷积（dilation=2， padding=2）和全局空洞卷积（dilation=8， padding=8）。这四条路径分别捕获了不同尺度的特征信息。每条路径的输出经过批归一化和ReLU激活后，沿通道维度进行拼接（Concat）。拼接后的高维特征再通过一个1x1点卷积进行通道压缩，并经由Sigmoid激活函数生成一个注意力图（Attention Map）。该注意力图随后与原始输入特征进行逐元素相乘，以此增强关键区域的特征响应，抑制无关信息。最后，采用残差连接（Residual Connection）将注意力加权后的特征与原始输入特征相加，以保留原始特征信息并提升模型稳定性。MAG机制动态地调整了对不同尺度特征的关注度，使模型能更精确地聚焦于图像中的关键病理区域。
c) 局部特征增强模块（Local Feature Enhancement Module， LFE）： 该模块位于解码器中，其目标是通过结合MAG机制与令牌化多层感知机（Tokenized MLP, Tok-MLP）来增强对局部特征的捕获能力。首先，来自编码器的特征f_out经过MAG处理得到f_mag，二者相加融合为f_merge。接着，f_merge通过一个3x3卷积层被投影为一组令牌（Tokens）。随后，LFE模块的核心——轴向偏移MLP（Shifted MLP）开始工作。它首先对令牌在宽度（width）方向进行轴向偏移（Axial Shift）操作，然后将偏移后的令牌送入MLP进行处理，再经过深度卷积（Depthwise Convolution, DWConv）和激活函数。之后，处理结果在高度（height）方向再次进行轴向偏移，并送入另一个MLP。最终，将MLP的输出与原始令牌相加，经过层归一化（Layer Normalization, LN）后得到增强的局部特征表示。这种轴向偏移操作模拟了Swin Transformer中窗口注意力的局部性思想，使模型能够在保持全局信息流的同时，专注于对局部空间位置和依赖关系的建模。
在解码阶段，来自编码器并通过跳跃连接（Skip Connection）传递的特征会先与上采样特征拼接，然后经过LFE模块处理，以实现更精确的定位。此外，模型中还引入了残差路径块（Respath Block）来减少编码器与解码器之间的语义鸿沟，并增强模型整合不同分辨率特征的能力。
三、 主要结果
研究者通过在三个数据集上与多种主流模型（如U-Net, DeepLabv3, CA-Net, UCTransNet, UNeXt, MBSNet, AMSUNet, ACC-UNet, MSDANet）的对比实验，以及详尽的消融实验，验证了MSSM-MFP模型的有效性。
对比实验性能： 如表4至表6所示，MSSM-MFP在多个评价指标上（包括交并比IoU、Dice系数、精确率Precision、召回率Recall、F1分数和准确率Accuracy）均展现出优异性能。在BUSI数据集上，MSSM-MFP在IoU（78.33%）、Dice（86.63%）、Precision（89.60%）、Recall（85.73%）、F1（86.57%）和Accuracy（97.90%）上全面优于或与最佳基线模型持平，且其参数量（5.65M）和计算复杂度（6.97 GFLOPs）远低于性能接近的MSDANet（162.82M， 55.63 GFLOPs）和UCTransNet（66.24M， 32.98 GFLOPs）。在Glas和ISIC2016数据集上，MSSM-MFP的表现略逊于个别大型模型（如MSDANet在Glas上的IoU， UCTransNet在ISIC2016上的IoU），但考虑到其轻量级的架构，这种性能差距在可接受范围内，体现了其在精度与效率间的良好平衡。
定性结果分析： 图7展示了模型在三个数据集上的分割结果可视化对比。可以看出，MSSM-MFP的分割边界更为平滑，对细节的捕捉更准确。例如，在Glas数据集的腺体分割中，MSSM-MFP能更清晰地分离左上角和右下角结构复杂的腺体区域，而其他模型则存在误分割或欠分割的情况。图9的热力图进一步表明，MSSM-MFP能够成功地将注意力集中在目标病灶区域。图10的精确率-召回率曲线也显示，MSSM-MFP在BUSI数据集上位于曲线右上方，表明其在保持高召回率的同时也具有高精确率。
消融实验验证： 为厘清各模块的贡献，研究者进行了系统的消融实验（表7）。以UNeXt为基线，逐步添加Respath块（R）、空洞卷积（D）和MAG+LFE模块（ML）。实验结果表明：
单独添加Respath块（R-变体）对Glas数据集提升显著，说明其有效缓解了编解码器间的语义差距。
单独添加空洞卷积（D-变体）在BUSI数据集上带来大幅提升，证明多尺度感受野对捕获局部和全局特征至关重要。
当同时包含R和D（RD-变体）时，模型在BUSI和Glas数据集上均取得稳定提升。
最终完整的MSSM-MFP模型（包含R、D、ML）在所有指标上达到最佳，尤其是在BUSI数据集上IoU相比基线提升了7.79%。这证实了MAG机制在动态融合多尺度特征、LFE模块在增强局部特征表示方面的核心作用，以及三者协同工作的有效性。
去除任一核心组件（如变体4去除D，变体5去除R，变体6去除ML）都会导致性能下降，从反面论证了各模块的必要性。
参数实验： 研究还针对MCF模块的空洞率/填充值组合（表10,11）和MAG模块的卷积配置（表12,13）进行了参数实验。结果表明，MCF采用(1,3,5)的空洞率组合，MAG采用包含dilation=2和dilation=8的卷积组合（padding和dilation rate设为(0,1,2,8)和(1,1,2,8)）时，模型整体性能最优。
四、 结论
本研究成功提出并验证了MSSM-MFP模型。该模型通过创新的MCF模块实现了高效的多尺度特征捕获，通过MAG机制实现了对关键区域的动态注意力聚焦，并通过LFE模块增强了对局部细节的建模能力。实验结果表明，MSSM-MFP在多个医学图像分割数据集上实现了与最先进模型相媲美甚至更优的分割精度，同时保持了相对轻量级的参数量和计算复杂度，有效地在分割准确性和计算效率之间取得了平衡。这项工作为开发适用于临床资源受限环境的高性能计算机辅助诊断工具提供了有前景的解决方案。
五、 研究亮点
有效的精度-效率权衡：MSSM-MFP的核心贡献在于设计了一个在保持高分割精度的同时，显著降低了模型复杂度的架构。与参数量巨大的Transformer类模型或性能不足的轻量模型相比，它提供了更具实用性的折衷方案。
创新的模块化设计：研究并非简单堆叠现有技术，而是针对医学图像分割中全局上下文建模难、细节易丢失等具体问题，原创性地设计了MCF、MAG和LFE三个互补的模块，并通过严谨的消融实验证明了其各自的有效性与协同作用。
对边缘与细节的关注：模型通过多尺度空洞卷积和局部特征增强机制，显式加强了对图像边缘和细微结构的感知与分割能力，这是许多现有方法忽略但在临床诊断中至关重要的方面。
广泛的数据集验证：研究在超声（BUSI）、组织病理（Glas）和皮肤镜（ISIC2016）三种不同模态的医学图像数据集上进行了全面评估，证明了模型具有一定的跨模态泛化能力。
六、 其他有价值的内容与未来方向
作者在讨论部分也坦诚指出了模型的局限性。首先，模型目前主要针对二分类分割任务，其在更复杂的多类别分割场景下的适用性有待验证。其次，模型的泛化能力需要在更广泛、更多样的医学影像数据集上进行进一步测试。最后，尽管模型已相对轻量，但在极端资源受限环境下的部署可能仍需进一步优化。
因此，未来的研究方向包括：将模型扩展以适应多类分割任务；在更多模态和更大规模的临床数据集上进行验证与微调；继续探索模型压缩与加速技术，以实现在移动设备或边缘计算设备上的部署。通过解决这些问题，MSSM-MFP有望成为辅助临床医生进行快速、准确医学影像分析的有力工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问