学术研究报告:MMU-Net——一种结合多尺度特征信息的高效医学图像分割模型
一、 研究团队与发表信息
本研究的主要作者为虞传跃 (Chuanyue Yu)、付智勇 (Zhiyong Fu)、张智坤 (Zhikun Zhang) 和陈超翔 (Chaoxiang Chen),其中陈超翔为通讯作者。作者单位包括湖州学院信息工程学院 (a)、浙江树人学院树兰国际医学院 (b) 及浙江省国际科技合作基地(遥感图像处理与应用)©。该研究成果以题为《MMU-Net: An efficient medical image segmentation model combining multi-scale feature information》的学术论文形式,发表于《Biomedical Signal Processing and Control》期刊第112卷(2026年),文章识别号为108265,在线发布于2025年9月5日,正式接收于2025年6月23日。该期刊文章遵循CC BY-NC 4.0开放获取许可协议。
二、 学术背景与研究目标
本研究的核心科学领域是计算机视觉与医学图像处理,具体聚焦于医学图像的语义分割任务。深度学习,尤其是基于编码器-解码器架构的模型如U-Net,已在医学图像分割中展现出卓越性能。然而,医学图像中目标病灶(如肿瘤、息肉)在尺寸、形状上存在巨大差异,且图像常伴有低对比度、噪声干扰和复杂的解剖结构变异,这使得实现精确分割极具挑战。U-Net及其变体虽通过跳跃连接(Skip Connections)融合了编码器与解码器之间的特征,但仍存在固有局限:下采样过程中的池化或卷积操作会导致空间细节信息丢失;编码器深层特征(高层语义、低分辨率)与浅层特征(高分辨率、低层语义)之间存在显著的“语义鸿沟”(Semantic Gap),简单的跳跃连接难以有效对齐;传统卷积神经网络(CNN)的局部感受野限制了模型捕获长距离依赖和全局上下文信息的能力,而医学图像中器官或病灶的准确分割往往需要全局结构信息。
针对上述问题,本研究旨在提出一种新颖的、高效的U-Net变体模型,以提升医学图像分割的精度。具体目标包括:设计一种新的多尺度特征融合机制以更有效地利用不同层级的特征信息;引入能够高效建模全局上下文的模块,以弥补传统CNN的不足;最终,在公开的医学图像数据集上验证所提模型的有效性和优越性。
三、 研究方法与技术流程
本研究提出了一种名为MMU-Net的新型医学图像分割模型。其核心创新在于两个新模块的引入:多尺度信息混合模块(Multi-scale information Mixing Block, MMB)和密集卷积混合模块(DenseConvMixer Block)。整体研究流程遵循了模型设计、实现、实验验证与分析的标准范式。
1. 模型整体架构 MMU-Net的整体框架延续了U-Net的编码器-解码器结构,但其跳跃连接部分被MMB模块取代,并在编码器底层后接入了DenseConvMixer模块。“MM”代表了“多尺度混合”(Multi-scale Mixing),其设计核心在于实现跨不同层级语义特征信息的深度融合。具体流程如下:首先,编码器各层生成不同分辨率的特征图;随后,这些特征被送入MMB模块,该模块通过上采样或下采样操作将所有层级的特征图对齐至当前解码器对应层的尺寸,并沿通道维度进行拼接,实现初步的多尺度特征融合;融合后的特征经过点卷积、批归一化和ReLU激活函数进一步处理,以增强其表达能力。同时,编码器深层(底层)的高层语义特征被输入DenseConvMixer模块,该模块旨在通过纯卷积操作高效地提取和融合全局上下文信息。最后,解码器在相应层级接收来自MMB处理后的多尺度特征以及来自DenseConvMixer的全局上下文信息,逐步上采样并恢复分割图。
2. 多尺度信息混合模块 MMB模块是改进跳跃连接的关键。对于编码器生成的第i层特征图f_i^0,MMB会处理所有其他层(j层,j=1到n)的特征图f_j^0。处理策略是:对于分辨率高于i层的浅层特征(j < i),采用最大池化(MaxPooling)进行下采样;对于分辨率相同的层(j = i),直接使用原特征;对于分辨率低于i层的深层特征(j > i),则采用最近邻插值上采样(Upsample)。所有调整至统一尺寸(H_i, W_i)的特征图随后沿通道维度拼接(Concat)成一个丰富的特征表示F_i^2。此拼接特征接着通过一个卷积块(包含点卷积、批归一化和ReLU激活)进行融合与降维,生成最终准备传输给解码器的特征F_i^3。这一设计确保了传递到解码器每一层的特征都同时包含了来自浅层的精细空间细节和来自深层的抽象语义信息,有效缓解了语义鸿沟问题。
3. 密集卷积混合模块 DenseConvMixer模块的引入是为了解决CNN全局建模能力不足的问题。该模块的核心是一系列堆叠的深度可分离卷积(Depthwise Separable Convolution)层,包含深度卷积和点卷积两个步骤,分别负责空间特征提取和通道间特征交互。其创新之处在于采用了特征加权的密集连接机制。具体而言,第l层的输入不仅仅是前一层的输出,而是前面所有层(0到l-1层)输出的加权拼接。每一层输入特征f_i在拼接前会乘以一个可学习的权重α_i(通过1x1卷积和Sigmoid函数生成,范围在[0,1]之间)。这种机制实现了动态的特征选择,能够自适应地调整不同层级特征的重要性,抑制噪声特征,增强关键特征的表达。通过堆叠的深度卷积和这种加权密集连接,该模块在保持计算效率的同时,实现了有效的全局上下文建模和感受野的渐进式扩大。
4. 实验设置与评估 数据集:研究使用两个公开医学图像分割数据集进行评估。一是乳腺超声图像数据集Busi,包含780张图像,分为正常、良性和恶性三类,用于验证模型在复杂、模糊边界病灶上的分割能力。二是结肠息肉数据集CVC-ClinicDB,包含612张从结肠镜检查视频中提取的静态图像,用于验证模型在胃肠道图像中的分割性能。 数据预处理与增强:所有图像被统一缩放至256x256像素。采用随机旋转和翻转等数据增强技术增加训练样本多样性,提升模型鲁棒性。 实现细节:实验在配备NVIDIA RTX 3090 GPU的平台上使用PyTorch框架进行。网络使用结合了二元交叉熵损失和Dice损失的混合损失函数(BCEDiceLoss)进行优化,采用Adam优化器,初始学习率为0.0001。数据集按8:2的比例随机划分为训练集和验证集。 性能指标:采用交并比(Intersection over Union, IoU)、精确率(Precision)、F1值(F1-score)和准确率(Accuracy)四个常用指标,基于混淆矩阵(真阳性TP、真阴性TN、假阳性FP、假阴性FN)计算,以全面量化模型的分割性能。
四、 主要研究结果与分析
本研究进行了详尽的实验,包括与主流模型的对比实验和消融实验,以验证MMU-Net的有效性。
1. 对比实验结果 在CVC-ClinicDB(息肉)数据集上,MMU-Net取得了最佳性能,其IoU达到90.97%,F1值达到95.25%,准确率高达99.15%。该结果显著优于所有对比模型,包括经典的U-Net(IoU: 85.81%)、U-Net++(86.55%)、Attention U-Net(88.15%)、TransUNet(86.38%)、CMU-Net(87.31%)以及近期提出的ID-UNet(84.27%)和DBHNet(89.36%)。在更具挑战性的Busi(乳腺超声)数据集上,MMU-Net同样取得了领先的IoU(65.21%)和准确率(96.76%),优于其他对比模型。这些数据充分证明,MMU-Net所提出的MMB和DenseConvMixer模块能够协同作用,在处理不同形态、不同对比度的医学病灶时,均能实现更精确的分割。
2. 消融实验结果 为厘清MMB和DenseConvMixer模块各自的贡献,研究在CVC-ClinicDB数据集上进行了系统的消融实验。基线U-Net模型的IoU和F1值分别为85.81%和92.33%。当单独引入MMB模块后,性能提升至IoU 87.68%,F1值93.42%,这验证了改进的多尺度特征融合机制的有效性。当单独引入DenseConvMixer模块后,IoU大幅提升至89.87%,F1值达到94.64%,这凸显了全局上下文建模对于分割精度的重要性。而将两个模块结合形成的完整MMU-Net模型,实现了最高的性能(IoU: 90.97%, F1: 95.25%),其提升幅度超过了任一模块单独带来的增益。这一结果强有力地说明,MMB模块在融合局部多尺度细节特征方面,与DenseConvMixer模块在捕获全局语义信息方面,具有互补和协同优化的作用。两者结合是提升模型性能的关键。
3. 可视化分析 研究还对编码器各层的特征图进行了可视化分析。结果显示,浅层编码器特征图保持了较高的空间分辨率,激活区域主要集中在局部纹理和边缘细节,这对目标边界定位至关重要。而深层编码器特征图虽然空间分辨率降低,但呈现出更清晰的语义特征,能够更全面地捕获器官或病灶的全局结构。这种从局部细节到全局语义的渐进式特征提取,正是MMU-Net能够实现精准分割的内在原因。从论文提供的分割结果示例图(图4)也可以直观看出,相较于其他模型,MMU-Net的分割结果与真实标注(Ground Truth)最为接近,特别是在病灶边界处更为清晰、完整,证明了其在复杂背景下(如组织粘连处)具有更强的鲁棒性。
五、 研究结论与意义
本研究得出结论:所提出的MMU-Net框架,通过其创新的多尺度信息混合模块和特征加权密集连接的卷积混合模块,成功地提升了对医学图像中局部细节特征和全局上下文信息的捕获与融合能力。在息肉和乳腺超声两个公开数据集上的实验结果表明,该模型在多个评估指标上均超越了现有的先进分割方法。
本研究的科学价值在于:第一,提出了一种新颖的多尺度特征融合架构(MMB),通过系统的尺寸对齐与通道拼接,更有效地弥合了编码器与解码器之间的语义鸿沟。第二,创新地将特征加权密集连接机制与ConvMixer结合,形成DenseConvMixer模块,在保持卷积计算高效性的同时,显著增强了模型对图像全局结构的理解能力。第三,为医学图像分割领域提供了一种兼顾局部精度与全局一致性的有效技术方案。
其应用价值体现在:MMU-Net的高精度分割能力可辅助医生进行更准确的病灶定位、定量分析和诊断决策,例如在乳腺癌筛查、结肠息肉检测等场景中,有望提高诊断的效率和可靠性,具有临床转化潜力。
六、 研究亮点与创新
七、 其他有价值内容
论文在讨论部分也客观指出了当前研究的局限性及未来方向,体现了研究的严谨性。局限性包括:处理高分辨率三维医学体积图像时可能面临计算内存的挑战;需要在更多样化的临床数据集上进行验证以加强泛化性;对罕见或极微小病灶的分割性能有待进一步考察。未来研究方向包括:开发适用于3D医学图像分析的高效架构变体;探索半监督或自监督学习以减少对大量标注数据的依赖;研究如何整合临床元数据为分割决策提供更多上下文信息。这些思考为后续研究指明了有价值的探索路径。