MFBRU-Net：用于医学图像分割的多尺度特征融合与边界优化U-Net

分享自：
MFBRU-Net：用于医学图像分割的多尺度特征融合与边界优化U-Net

影像医学与核医学
生物医学工程
期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2026.109593
【点击此处】阅读全文、收藏及针对性提问
MFBRU-Net：面向复杂医学图像分割的多尺度特征融合与边界优化新方法研究学术报告第一， 主要作者、机构及发表信息
本研究由来自University of Science and Technology Liaoning计算机与软件工程学院的Han Gao、Xianran Zhang、Ziteng Wang、Jiansheng Wu，电子信息工程学院的Zhengpeng Li，以及Dalian University of Technology City Institute的Ping Sun共同完成。通讯作者为Jiansheng Wu。该研究成果以论文形式发表在《Biomedical Signal Processing and Control》期刊的第117卷（2026年），论文标题为《MFBRU-Net: Multi-scale feature fusion and boundary refining U-Net for medical image segmentation》。论文的收稿日期为2025年8月27日，修订日期为2025年12月7日，最终在线发表日期为2026年1月14日。
第二， 学术背景与研究目的
本研究属于医学影像分析与计算机视觉交叉领域，核心任务是医学图像分割（Medical Image Segmentation）。作为智能诊断系统的核心技术，医学图像分割对于模型的空间结构建模能力、语义一致性保持能力和细节重建能力提出了严苛要求。尽管基于深度学习的方法已在标准数据集上取得了进展，但公共数据集中普遍存在的挑战——如模糊的结构边界、密集分布的小目标以及高度多样化的目标尺度——仍导致现有方法在多尺度语义融合、远程上下文建模和精细边界感知方面存在不足。
具体而言，研究团队指出了当前主流U-Net及其衍生架构普遍面临的三个核心局限性：1. 不同尺度特征图之间的语义错位与结构不匹配，导致直接跳层连接或拼接等静态融合方式产生信息冗余和干扰；2. 缺乏从编码到解码路径上持续、一致的语义引导机制，导致语义一致性差，在目标共存或边界不清时判别能力不足；3. 传统解码路径依赖于单纯的上采样插值，在缺乏足够语义监督下难以恢复目标真实轮廓，尤其在小目标（如息肉、肿瘤）和复杂形态区域易产生边界模糊或不连续问题。
为解决上述瓶颈，本研究旨在提出一个端到端的增强型分割框架——MFBRU-Net。其主要研究目标是通过系统性的模块协同设计，有效整合多层次几何与语义信息，强化模型对复杂边界、小目标和多尺度变化的适应性，从而在多样化的医学影像数据上实现高精度、高鲁棒性的分割性能，为临床智能诊断提供更高效的解决方案。
第三， 详细研究流程与方法论
本研究遵循了深度学习模型研发的标准流程：问题定义与动机分析、核心模块设计与网络架构构建、大规模实验验证、结果分析与解释。研究流程具体包含以下几个关键环节：
1. 研究对象与数据集选择： 研究选取了五个具有代表性的公共医学图像分割数据集，涵盖了内窥镜、病理和超声三种主要影像模态，以确保评估的全面性和结论的泛化能力： - Kvasir-SEG (1000张结肠镜图像)：用于息肉分割，存在强镜面反射和复杂背景纹理。 - CVC-ClinicDB (612张结肠镜图像)：结肠息肉分割标准数据集之一。 - ETIS-LaribPolypDB (196张高清结肠镜图像)：图像质量高，但息肉尺寸小，边界模糊，挑战性大。 - GlaS (165张H&E染色病理切片图像)：用于腺体分割，结构密集，边界精细。 - BUSI (780张乳腺超声图像)：用于乳腺肿块分割，具有强斑点噪声、低对比度和模糊边界。 所有数据集均严格遵循基于患者、病例或视频序列的分割策略，以防止数据泄露，确保评估结果的可靠性。
2. 核心算法与模型架构（MFBRU-Net）开发： 本研究提出了一种新颖的U型架构，在保留编码器-解码器主干结构的基础上，引入了三个核心创新模块，分别针对编码阶段的语义感知增强、中间阶段的多尺度特征引导融合和解码阶段的时空上下文建模。
主干编码器：采用RegNet作为编码器，因其规则化的结构和优异的计算效率。它将输入图像编码为四个不同语义层次的特征图（F1-F4），其空间分辨率分别为原图的1/4, 1⁄8, 1/16和1/32，通道数逐渐增加，构建了清晰的多尺度特征表示。四阶段共享权重，以保持跨阶段语义表达的一致性并降低参数量。
多尺度特征融合模块（Multi-scale Feature Fusion Module, MFFM）：为解决跨层特征几何与语义不对齐问题，MFFM设计了一个层次化融合机制。该模块首先通过可变形卷积机制进行空间对齐，并使用卷积、池化和上采样操作将来自不同阶段（F1-F4）的特征统一到目标尺度。然后，将这些尺度统一的特征在通道维度进行拼接，形成初始融合特征。最后，通过卷积操作并与原始对应层特征进行元素级相乘，输出校准后的特征（C1-C4）。这个过程有效减少了低级细节与高级语义之间的错配。
显著性引导特征优化模块（Saliency-guided Feature Refinement Module, SFR）：SFR旨在通过语义蒸馏和多尺度注意力调制来优化跨尺度融合。其核心是一个名为ESPS（Efficient Semantic Propagation Structure）的子模块。ESPS包含高效多尺度注意力（Efficient Multi-scale Attention, EMA）和语义交互多尺度蒸馏块（Semantic Interaction Multi-scale Distillation Block, SIMDB）。EMA模块通过分组通道处理、空间引导注意力和局部上下文建模，在空间和通道维度联合增强特征图。SIMDB则通过多层级联卷积和残差连接实现渐进式特征融合与提炼。SFR以“自上而下”的方式工作，将高层特征的语义显著性权重逐层传递并加权融合到低层特征上，从而显著缓解语义漂移和信息冲突，增强对关键结构（特别是小目标）的识别能力。
XLSTM边界优化解码器（XLSTM Boundary Refinement Decoder, XBRD）：为增强解码阶段的全局上下文建模和边界连续性恢复能力，本研究创新性地将自然语言处理中的扩展长短期记忆网络（Extended Long Short-Term Memory, XLSTM）的“时序建模”能力迁移到“空间建模”场景。XBRD的核心是XBlock模块。它首先将最高层语义特征通过块嵌入（PatchEmbedding）划分为空间伪序列。然后将该序列输入XLSTM模块，利用其增强的长期记忆机制和门控（输入门吸收新证据，遗忘门过滤过时信息）进行空间上下文建模，捕获图像中远距离区域间的结构依赖关系。建模后的序列经层归一化后，重构为空间结构特征。在解码路径中，采用类似U-Net的渐进上采样融合机制，每一层将上一层上采样结果与来自SFR的对应层骨干特征相加，并通过一个由卷积、批归一化和ReLU组成的CBR块进行细化，最终通过双线性插值和softmax分类器输出高分辨率分割结果。
3. 实验设置与训练细节： - 实现与训练：模型使用PyTorch框架实现，在NVIDIA RTX 3060 GPU上训练。输入图像统一调整为256x256像素，批次大小为16。 - 优化策略：采用Adam优化器，初始学习率为5e-4，并结合余弦退火学习率调度策略。使用BCE（二元交叉熵）损失和Dice损失的组合作为总损失函数，以平衡像素级精度和整体轮廓匹配。 - 训练过程：每个数据集独立训练400个周期，采用早停机制（验证集IOU连续50个周期无提升则停止），并保存最佳检查点模型用于最终测试。所有实验均独立重复5次以报告均值和标准差。 - 评估指标：除了主流的区域重叠度量标准Dice系数和交并比（IOU）外，还引入了全面的评估指标，包括：反映边界平均距离的平均对称表面距离（ASSD）、衡量最坏情况下边界偏差的95%豪斯多夫距离（HD95）、评估边缘匹配度的边界F1分数（Boundary-F1），以及召回率（Recall）、精确率（Precision）。同时，报告了模型参数量（Params）和浮点运算数（FLOPs）以评估计算效率。
4. 实验设计与分析流程： - 对比实验：在五个数据集上，将MFBRU-Net与一系列代表性方法进行对比，包括基于CNN的架构（U-Net, U-Net++, DUCK-Net, KM-UNet等）、基于Transformer的架构（FCBFormer, UniNet, Topo-VM-UNetv2等）以及基于XLSTM的架构（XLSTM-UNet）。 - 消融实验：系统性地评估了MFFM、SFR和XBRD三个核心模块对最终性能的贡献，通过逐一移除模块来观察性能变化。 - 损失函数消融：对比了单独使用BCE损失、Dice损失以及两者组合的效果。 - 数据增强策略消融：评估了不同数据增强策略（如旋转/翻转、颜色/对比度抖动、模糊/弹性形变、添加噪声等）结合测试时增强（TTA）对模型性能的影响。 - 可视化分析：提供了分割结果的可视化对比图，并使用Grad-CAM生成了注意力热力图，以直观展示模型在不同模态图像上的聚焦区域和决策依据。
第四， 主要研究结果与发现
本研究通过一系列严谨的实验，获得了全面且具有说服力的结果，验证了MFBRU-Net框架的有效性和优越性。
1. 对比实验结果： 在三个结肠息肉分割数据集上，MFBRU-Net展现了卓越的性能。在最具挑战性的ETIS数据集上（以小目标和模糊边界著称），MFBRU-Net取得了95.50% 的Dice分数和91.40% 的IOU，显著优于性能最强的对比模型DUCK-Net（Dice 93.54%， IOU 87.88%），将Dice和IOU分别提升了约1.96%和3.52个百分点。在CVC-ClinicDB数据集上，其Dice达到95.26%，IOU为90.96%，与顶级方法性能相当但边界保持更优。在Kvasir-SEG数据集上，尽管该数据集结构复杂、反射干扰强，MFBRU-Net仍取得了93.73%的Dice和88.30%的IOU，表现稳定。 在跨模态数据集上，MFBRU-Net同样表现出色。在病理图像数据集GlaS上，Dice为94.30%，IOU为89.97%，优于KM-UNet等对比方法。在噪声严重的超声数据集BUSI上，取得了83.21%的Dice和71.30%的IOU，明显优于U-Net++、U-KAN等方法，证明了其在低质量图像上的鲁棒性。
2. 多维度性能评估结果： 如表4所示，MFBRU-Net在边界精度指标上表现突出。在ETIS和GlaS上，ASSD分别低至0.85和0.90，HD95在ETIS上仅为0.10，这表明模型预测轮廓与真实边界之间的偏差极小，边界拟合精度高。边界F1分数在CVC、ETIS和GlaS上均超过71%，显示出优秀的边缘定位能力。在像素分类指标上，模型在GlaS上取得了高达97.95%的召回率，在CVC和ETIS上精确率超过97%，说明其既能有效捕获目标区域，又能控制误检。计算效率方面，模型参数量为19.005M，FLOPs为4.206G，单批次推理时间为306毫秒，在保持高性能的同时具备了实际部署的潜力。
3. 消融实验结果： 消融实验清晰地证明了每个核心模块不可或缺的作用。 - 移除MFFM：性能下降最为显著，特别是在ETIS数据集上，Dice从95.50%降至92.69%，IOU下降5.02%。这表明多尺度特征对齐是保证边界准确性的基础。 - 移除SFR：在GlaS和ETIS上，Dice和IOU均有明显下降。这表明缺乏语义引导的简单特征融合会削弱模型对精细结构的判别力。 - 移除XBRD（XBlock）：用传统上采样替代后，在GlaS和ETIS上的Dice和IOU均下降约1个百分点。这验证了引入XLSTM进行空间上下文建模对于恢复复杂形态和保持边界连续性的关键价值。 损失函数消融实验表明，BCE+Dice的组合损失在所有数据集上均优于任一单独损失，实现了像素级精度与区域形状建模的最佳平衡。数据增强消融实验则证明，综合使用多种增强策略（几何变换、颜色抖动、噪声添加等）并结合TTA，能最有效地提升模型在不同挑战性条件下的泛化能力。
4. 可视化结果分析： 分割结果可视化图（图6）直观显示，MFBRU-Net的分割掩膜与真实标注（GT）高度一致，在息肉、腺体、肿块等各种目标上，其轮廓更清晰、结构更完整，特别是在边界模糊和小目标区域优势明显。注意力热力图（图7）显示，无论在噪声强的超声图像还是纹理复杂的内窥镜图像中，模型都能稳定地将注意力集中在病变区域内部及边缘，其激活分布与真实感兴趣区域高度吻合，解释了模型在边界指标和分割精度上稳定表现的原因。
第五， 研究结论与价值
本研究成功提出并验证了MFBRU-Net，一个用于复杂医学图像分割的端到端增强框架。通过集成多尺度特征融合模块（MFFM）、显著性引导特征优化模块（SFR）和XLSTM边界优化解码器（XBRD），该框架系统性地解决了现有方法在语义错位、上下文建模不足和边界恢复模糊方面的核心挑战。
科学价值：本研究的主要科学贡献在于：1) 提出了一种“对齐-优化-拓扑重建”的阶段性语义协作新范式，超越了传统的静态特征拼接或堆叠；2) 创新性地将XLSTM的时序建模能力迁移并适配到图像空间建模任务中，为医学图像分割中的长程依赖和结构连续性建模提供了新思路；3) 设计了融合可变形对齐、通道分布约束、多尺度注意力与语义蒸馏的复合模块，实现了跨层次特征的高质量融合与提炼。
应用价值：实验表明，MFBRU-Net在结肠镜息肉、病理腺体、乳腺超声肿块等多种关键临床影像的分割任务上，均达到了领先或极具竞争力的精度，且对噪声、模糊边界和小目标具有强鲁棒性。这使其有望集成到实际的计算机辅助诊断（CAD）系统中，辅助医生进行更快速、更精准的病灶检测、定位和定量分析，提升诊疗效率和一致性。
重要观点：本研究强调了在医学图像分割中，单纯的网络结构堆叠或引入复杂注意力机制并非最优解。相反，通过深入分析任务瓶颈（如多尺度语义鸿沟、解码信息退化），并设计针对性、可解释的模块进行协同优化，是实现性能突破的更有效途径。
第六， 研究亮点
系统性的模块化创新：研究不是对单一组件的小修小补，而是针对编码-融合-解码全流程的瓶颈，提出了三个各有侧重又紧密协同的核心模块（MFFM, SFR, XBRD），构成了一个完整的性能提升解决方案。
XLSTM的空间建模迁移：将主要用于NLP的XLSTM创造性应用于图像空间序列建模，利用其门控记忆机制有效捕获图像中远距离区域的结构依赖关系，显著改善了边界连续性和复杂形态的恢复能力，这是一项重要的跨领域方法迁移创新。
卓越的综合性能与泛化能力：在涵盖内窥镜、病理、超声三种差异巨大的影像模态的五个权威数据集上进行了全面验证，不仅取得了多项SOTA或领先结果，更在反映分割硬实力的边界精度指标（如HD95）上表现尤为突出，证明了其强大的泛化性和临床实用性潜力。
深入全面的实验分析：除了常规的对比实验，研究进行了详尽的消融分析（模块、损失函数、数据增强），并辅以可视化（分割结果、热力图），从定量和定性两个角度充分论证了模型设计每个环节的有效性，使研究工作非常扎实、可信。
第七， 其他有价值内容
本研究的文献综述部分（第二章）对基于CNN和基于Transformer的医学图像分割方法进行了精炼而深刻的分析，指出了各自在特征处理机制上的优势与固有缺陷，特别是强调了当前多数方法在解码阶段缺乏闭环语义调节机制、融合策略依赖静态操作等问题。这为本研究的创新动机提供了坚实的理论背景，也反映了作者对该领域发展脉络的清晰把握。此外，论文中对数据集特性的详细描述（表1）以及严格的基于患者/序列的数据分割策略，体现了研究工作的严谨性和对避免数据泄漏的重视，这对于确保医学AI研究成果的可复现性和临床转化可靠性至关重要。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问