MFR-UNet：一种融合多尺度特征细化的医学图像分割网络

分享自：
MFR-UNet：一种融合多尺度特征细化的医学图像分割网络

生物医学工程
影像医学与核医学
期刊:iet systems biologyDOI:10.1049/syb2.70049
【点击此处】阅读全文、收藏及针对性提问
关于MFR-UNet医学图像分割网络的学术研究报告
本研究由来自多所高校的研究团队共同完成。主要作者包括青岛理工大学的Shaoqiang Wang、Guiling Shi、Shuo Sun、Yuchen Wang，山东科技大学的Yulin Zhang，廊坊师范学院的Weixian Li，山东中医药大学的Yawu Zhao，以及英国斯旺西大学的Xiaochun Cheng。该研究成果以题为《MFR-UNet: A Medical Image Segmentation Network with Fused Multi-scale Feature Refinement》的原创研究论文形式，发表于IET Systems Biology期刊，该文为开放获取（Open Access）文章，于2025年12月9日正式接受发表。
一、 研究的学术背景 本研究属于医学图像分析与计算机视觉交叉领域，具体聚焦于医学图像分割技术。精确的医学图像分割（如肿瘤、器官分割）是临床诊断、手术规划和放射治疗的关键步骤，其准确性直接影响治疗方案制定和患者预后。尽管基于卷积神经网络（CNN）的方法，尤其是U-Net及其变体，在此领域取得了显著成功，但仍面临核心挑战：传统CNN因其局部卷积核的特性，难以有效捕获图像中跨越较大空间距离的解剖结构之间的长程依赖关系；此外，U-Net架构中典型的跳跃连接（Skip Connection）通常采用简单的特征拼接方式，缺乏自适应性，可能导致特征冗余或语义冲突，无法实现跨层级特征的最优融合。尽管后续研究引入了注意力机制或Transformer等方法来部分缓解这些问题，但并未从根本上解决深层信息退化与全局建模效率低下之间的矛盾。例如，标准Transformer在处理高分辨率图像时存在二次计算复杂度问题，且可能因缺乏空间归纳偏置而破坏特征图的空间连续性。因此，本研究旨在提出一种新颖的U-Net架构变体，通过集成多尺度特征精炼机制，从根本上增强深度特征的表达能力，以克服现有模型的性能瓶颈。
二、 研究的详细工作流程 本研究提出了一种名为MFR-UNet的新型网络架构，其核心是在经典U-Net框架的关键位置，创新性地集成了三个协同工作的模块，以系统性优化特征提取、上下文建模和特征融合过程。整个研究工作流程主要包括网络架构设计、模块创新、实验验证与结果分析几个核心环节。
网络架构与核心模块设计：MFR-UNet以U-Net的编码器-解码器结构为骨干，嵌入了三个关键模块：
小波变换卷积模块（Wavelet Transform Convolution Module, WTConv）：该模块被集成在编码器的深层。其工作流程是：首先，使用离散小波变换（DWT，如Haar小波基）将输入特征图分解为四个子带（低频轮廓x_ll，以及水平x_lh、垂直x_hl、对角线x_hh三个方向的高频细节）。接着，每个子带特征通过独立的深度可分离卷积（DWConv）层进行处理，这使得模型能够分别学习和关注不同频率的信息。然后，处理后的子带特征通过元素求和进行聚合，并利用逆小波变换（IWT）重建回空间域。最后，再经过一个DWConv层进行最终的特征整合与平滑。该模块通过对特征进行频域分解与独立处理，增强了模型对边缘和精细纹理（高频信息）以及整体轮廓（低频信息）的感知能力。
大感受野注意力模块（Large Receptive Field Attention Module, LRFA）：该模块部署于编码器中，旨在高效捕获多尺度上下文信息和长程依赖。其工作流程分为几步：首先，输入特征经过一个由层归一化（LN）、1x1卷积和3x3卷积组成的预处理单元，提取鲁棒的局部表示。然后，该局部特征被送入三个并行的深度可分离卷积（DWConv）分支，进行多尺度感受野聚合，输出通过元素求和得到聚合特征x_agg。此后，x_agg被馈入一个标准的多头自注意力（MHA）模块，以显式建模特征图中所有空间位置之间的成对关系，从而动态、非局部地增强信息更丰富的特征区域，得到x_attn。最后，通过一个主残差连接，将注意力精炼后的特征x_attn经1x1卷积进行通道信息整合后，与模块的原始输入相加，得到最终输出。该设计结合了卷积的局部特征提取效率和自注意力的全局建模能力，且计算成本相对较低。
加权上下文融合模块（Weighted Contextual Fusion Module, WCF）：该模块用于优化跳跃连接和解码路径中的特征融合过程。它接收两个特征流（例如，来自编码器的高分辨率细节特征x1和来自解码器的深层语义特征x2）作为输入。其工作流程包含两个并行分支：在动态权重生成分支中，利用x1通过线性层和重塑操作，再经Softmax函数生成归一化的通道注意力权重w_attn。在并行特征变换分支中，x2先通过DWConv提取空间特征，再经线性层变换得到待加权特征f_in。在融合阶段，将动态生成的注意力权重w_attn与f_in进行逐元素乘法，这相当于利用x1的信息动态、选择性地增强或抑制x2的不同特征通道。最后，融合后的特征再通过一个DWConv层进行最终整合。该机制实现了跨层级特征的自适应、高效融合，能有效抑制冗余和语义冲突。
实验对象与数据处理：为全面评估MFR-UNet的性能与泛化能力，研究在四个公开的医学图像分割数据集上进行了实验，涵盖了不同的成像模态：
CVC-ClinicDB：包含612帧从结肠镜视频中提取的图像，带有息肉区域分割掩码，用于内镜息肉分割。
ISIC 2017：包含2000张皮肤镜图像，用于皮肤病变（如黑色素瘤）的分割，病变形态多样且边界常模糊。
DDTI (Diagnostic Dataset for Thyroid Imaging)：甲状腺超声图像数据集，包含各种甲状腺结节，图像具有低对比度和强散斑噪声的特点。
MICCAI Tooth：来自MICCAI 2D牙齿分割挑战赛的牙科X射线图像数据集，用于分割高密度、结构精细的牙齿组织。 所有输入图像和对应掩码均被统一调整至256x256像素，并进行归一化处理。为增强模型泛化能力并减轻过拟合，采用了在线数据增强策略，包括随机旋转（-15°到+15°）、随机水平/垂直翻转、随机缩放（0.8到1.2倍）和弹性变换。
实验配置与评估方法：
训练配置：使用AdamW优化器，初始学习率为1e-4，权重衰减为1e-5，采用余弦退火调度动态调整学习率。模型共训练200个周期，批大小为8。为确保评估可靠性，采用了五折交叉验证方案。
损失函数：采用交叉熵损失（L_ce）和Dice损失（L_dice）相结合的混合损失函数（L_total = 0.4 * L_ce + 0.6 * L_dice），以同时优化像素级分类准确性和预测区域与真实区域的结构相似性。
评估指标：采用四个广泛使用的指标进行定量评估：Dice相似系数（DSC）、交并比（IoU）、精确率（Precision）和灵敏度（Sensitivity/Recall）。
对比与消融实验设计：
与先进模型对比：将MFR-UNet与多个先进的医学图像分割方法进行对比，包括经典U-Net、U-Net++、AttUNet、UNeXt、DualA-Net、DPMNet和TPFIANet。所有模型在相同的实验设置下进行训练和评估。
消融研究：以U-Net为基线，在CVC-ClinicDB数据集上系统地进行了消融实验，分别评估LRFA、WTConv和WCF三个模块的独立贡献及其组合的协同效应。实验设置了基线模型、基线+单个模块、完整MFR-UNet去除某一模块等多种变体。
复杂度分析：对比了MFR-UNet与其它先进模型在参数量（Params）、浮点运算次数（FLOPs）和单张图像推理时间上的差异，以评估其计算效率。
三、 研究的主要结果 1. 与先进模型的定量比较结果：在四个数据集上的定量实验结果表明，MFR-UNet在所有指标上均一致达到最优或接近最优的性能，全面超越了所有对比的先进方法。 * 在CVC-ClinicDB数据集上，MFR-UNet取得了最高的Dice分数（91.25%）。这主要归功于LRFA和WCF模块的协同作用。LRFA通过其并行大感受野卷积和自注意力机制，捕获了息肉的完整轮廓和上下文信息；WCF模块则在特征融合时，利用编码器的高分辨率特征为解码器的语义特征动态生成通道权重，实现了对息肉边缘的精确描绘。 * 在更具挑战性的ISIC 2017数据集上，MFR-UNet同样取得了领先性能。这充分体现了WTConv模块的价值。该模块通过频域分解，使得网络即使在深层也能保留和学习代表边缘与纹理的高频细节，从而在重建分割图时，能恢复出比其他模型更精细、更贴合实际病变轮廓的边界。 * 在DDTI甲状腺超声数据集上，面对低对比度和强散斑噪声的挑战，MFR-UNet展现了最强的鲁棒性。WTConv模块有效分离了代表结节结构的低频信号和代表散斑噪声的高频信号。同时，LRFA模块的长程依赖建模能力变得至关重要，它能整合图像中分散的微弱证据，对结节位置和形态形成全局判断。 * 在要求极高分割精度的MICCAI Tooth数据集上，MFR-UNet仍取得了最佳结果。这源于所有组件的协同交互：LRFA提供牙弓的整体布局信息，WTConv增强了对牙缝、釉质边缘等高頻细节的感知，而WCF模块则确保这些从全局、频域和局部视角提取的多维信息，在解码器逐层恢复分辨率的过程中被无损且高效地融合，最终实现像素级的精确定位。
消融实验结果：消融实验清晰地证明了每个核心模块的有效性及其协同作用。
在U-Net基线模型上单独添加任一模块（WTConv, WCF, LRFA）均能带来不同程度的性能提升。其中，添加LRFA模块带来的提升最为显著，这强有力地证实了在编码器深层引入长程依赖和全局上下文建模对于提升分割性能的关键作用。
从完整的MFR-UNet中移除任何一个模块都会导致性能明显下降。移除LRFA导致的性能退化最大，进一步凸显了其在架构中的核心地位。移除WTConv或WCF同样会造成性能损失，表明频域分析和自适应特征融合对于实现高精度分割是不可或缺的，而非冗余设计。
最终，集成所有三个模块、协同工作的完整MFR-UNet模型取得了最佳性能，其Dice分数显著高于所有基线模型和部分组合模型。这充分证明了所提方法的协同优势和合理性：三个模块并非功能的简单堆叠，而是一个互补且不可或缺的有机整体。
复杂度分析结果：与U-Net、UNeXt等轻量模型相比，MFR-UNet具有更高的参数量（27.26M）和计算量（201.27 GFLOPs），这主要源于集成了强大的特征精炼模块。然而，这种适度的资源投入带来了分割准确性、鲁棒性和泛化能力方面显著且一致的性能增益。更重要的是，MFR-UNet在实际推理效率上表现突出，其高度并行化的模块设计（如LRFA和WTConv）充分利用了现代GPU的计算能力，将单张图像推理时间保持在临床实时或近实时辅助诊断所需的范围内（2.2毫秒），实现了模型复杂度与分割性能之间的良好权衡。
可视化结果：对典型病例分割结果的可视化分析进一步直观证实了MFR-UNet的优势。与其他先进模型相比，MFR-UNet生成的分割掩码轮廓更平滑、完整，且与病灶边缘精确贴合。在面对DDTI图像中的强散斑噪声时，MFR-UNet能产生更干净、更鲁棒的结果。消融实验的可视化结果也再次印证了各模块的必要性：移除LRFA可能导致对目标整体形状的把握丢失；移除WTConv会使分割边界明显模糊；移除WCF则可能导致分割区域不完整、边界连贯性变差。完整MFR-UNet的视觉结果最接近真实标注。
四、 研究的结论与意义 本研究提出了一种新颖的医学图像分割网络MFR-UNet，旨在解决现有U-Net架构在全局上下文捕获、多频域特征处理和跨层级信息融合方面的核心局限。通过创新性地集成LRFA、WTConv和WCF三个模块，该模型从多个维度对特征表示进行了深度精炼。
广泛的实验结果强有力地证明了MFR-UNet的有效性和优越性。在涵盖内镜、皮肤镜、超声和X射线四种不同成像模态的公共数据集上，MFR-UNet在关键性能指标上持续优于多种先进方法。这一成功源于其模块化、协同化的设计：LRFA有效捕获长程依赖，WTConv精确保留高频边界细节，WCF实现智能化的跨层级特征融合。
五、 研究的亮点 1. 模块化协同创新：研究并非提出一个全新的黑箱架构，而是针对U-Net的已知缺陷，设计了三个机理清晰、功能互补的模块（WTConv, LRFA, WCF），并系统地集成到经典框架中，形成了有机的整体解决方案。 2. 频域特征处理：引入小波变换进行频域分解与处理，为医学图像分割中如何更好地保留高频细节（如边缘、纹理）提供了新思路，有效缓解了CNN下采样过程中的信息丢失问题。 3. 高效全局建模：LRFA模块巧妙地将并行深度可分离卷积与多头自注意力结合，在扩大感受野、捕获全局上下文的同时，控制了计算复杂度，平衡了CNN的局部效率与Transformer的全局能力。 4. 自适应特征融合：WCF模块摒弃了简单的特征拼接，通过动态生成通道注意力权重来实现跨层级特征的智能融合，提升了特征利用效率并减少了冲突。 5. 全面的实验验证：研究在四个不同模态、具有不同挑战（形态多样、边界模糊、噪声干扰、结构精细）的数据集上进行了充分验证，并辅以详尽的消融实验、复杂度分析和可视化，结论坚实可信。
六、 其他有价值的内容 论文在“相关工作”部分对CNN、Transformer以及CNN-Transformer混合架构在医学图像分割中的发展进行了系统梳理，指出了各自优势与局限，为MFR-UNet的设计动机提供了清晰的学术脉络。同时，作者在结论部分也坦诚指出了模型的优化空间，如模型复杂度，并指明了未来的研究方向：一是探索知识蒸馏、网络剪枝等模型轻量化技术，以降低计算成本，提升在资源受限临床环境中的部署可行性；二是将MFR-UNet的2D框架扩展到3D，以处理MRI和CT等体积数据，这对于肿瘤体积测量和手术规划具有更大的临床意义。这些思考体现了研究的延续性和应用导向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问