学术研究报告:DMA-Net——通过双流特征融合与前景结构增强提升医学图像分割性能
一、 研究团队与发表信息
本研究报告由辽宁工程技术大学电子与信息工程学院的孙伟强、彭艳飞(通讯作者)和赵政共同完成。该研究成果以学术论文形式发表于《Biomedical Signal Processing and Control》期刊第113卷(2026年),文章标题为《DMA-Net: Improving Medical Image Segmentation Performance through Dual-stream Feature Fusion and Foreground Structure Supplementation》,并于2025年11月11日在线发表。
二、 学术背景与研究目的
本研究属于医学图像分析与计算机视觉交叉领域,具体聚焦于医学图像分割(Medical Image Segmentation)任务。该技术旨在对医学影像(如CT、MRI、超声图像)中的每个像素进行精确分类,以准确识别出感兴趣的器官、组织结构或病灶区域。高精度的分割结果是进行病理区域定量分析、术中导航和疾病进展监测的关键前提。
尽管基于深度学习的方法(如U-Net及其变体)在该领域取得了巨大成功,但现有模型仍面临严峻挑战。首先,卷积神经网络(CNN)依赖局部卷积核进行特征编码,难以有效建模图像中的全局和长距离语义依赖关系,而病灶形态的显著异质性恰恰需要模型具备强大的长距离依赖建模能力。其次,视觉Transformer(Vision Transformer)虽然通过自注意力(Self-Attention)机制擅长捕获全局上下文信息,但在编码局部空间上下文和表示细粒度特征方面存在不足,这对于精确勾勒大规模器官和细微组织结构至关重要。
为了克服上述单一架构的局限性,本研究提出了一种新颖的端到端医学图像分割框架——DMA-Net。其核心目标是:通过协同融合CNN的局部细节建模能力与Transformer的全局语义理解能力,并设计专门的模块来增强对前景(即目标分割区域)结构的感知与补充,从而实现对不同尺度、不同形态的解剖结构和病灶进行更精准、更鲁棒的分割。
三、 研究详细流程与方法
DMA-Net的整体架构是一个精心设计的编码器-解码器(Encoder-Decoder)网络,主要包含四个核心组件:双流特征融合编码器(Dual-stream Feature Fusion Encoder, DSFF)、多尺度卷积模块(Multi-scale Convolution Module, MSCM)、多阶段融合模块(Multi-stage Fusion Module, MSFM)以及前景结构补充模块(Foreground Structure Supplement Module, FSSM)。其工作流程如下:
1. 双流特征融合编码器(DSFF): 此模块旨在从输入图像中提取并融合多层次特征。它采用双分支并行结构,取代了传统的单分支编码器。 * Transformer分支: 以Swin Transformer为骨干。输入图像(224x224像素)首先被分割为不重叠的4x4图像块(Patches)。这些图像块依次通过四个阶段的Swin Transformer层进行处理。每个阶段内部包含多个Swin Transformer块,利用局部窗口自注意力机制捕获块间关系。阶段之间通过补丁合并层(Patch Merging)进行下采样,在降低空间分辨率的同时增加通道维度,从而逐步提取更深层、更抽象的全局上下文特征。最终输出三个不同尺度的特征图(F1_T, F2_T, F3_T)。 * CNN分支: 以ResNet34为骨干网络。为了与Transformer分支的输出在尺度上对齐,仅保留ResNet最后三个阶段的特征图(F1_C, F2_C, F3_C),它们分别对应着不同层级的局部细节和纹理信息。 * 特征融合: 在每一阶段,将CNN分支和Transformer分支输出的同尺度特征图进行通道拼接(Concatenation)。随后,引入挤压激励(Squeeze-and-Excitation, SE)通道注意力机制,自适应地重新校准每个通道特征的重要性,生成更具判别力的融合特征表示(f1, f2, f3)。这种渐进式融合策略确保了细粒度的空间细节与全局语义信息的连贯整合。
2. 多尺度卷积模块(MSCM): 该模块作用于编码器输出的每个层级特征图(f_i)。其设计目的是增强编码器提取特征的多尺度感知能力。 * 操作流程: 对于每个输入特征图,MSCM并行使用三个不同大小的卷积核(3x3, 5x5, 7x7)进行卷积操作,以捕获不同空间尺度上的上下文信息。为了缓解不同感受野带来的特征不一致性,引入了两个可学习的权重参数(W1, W2)来自适应校准不同尺度特征的贡献。所有分支的输出被拼接后,通过一个1x1卷积进行通道压缩。 * 特征增强: 压缩后的特征经过一个通道注意力块(Channel Attention Block, CAB)进行动态通道重校准,以抑制冗余响应并突出显著特征。最后,通过一个残差连接(将原始输入经1x1卷积投影后与CAB输出相加)和非线性激活,输出精炼后的多尺度特征图(m1, m2, m3),为后续模块提供更丰富的特征基础。
3. 多阶段融合模块(MSFM): 此模块负责将MSCM输出的多层级、多尺度特征(m1, m2, m3)进行深度融合,并生成初步的分割预测图。 * 自顶向下融合: 该模块采用自顶向下的特征融合路径。首先,最深层的特征m3经过上采样和基础卷积块(包含3x3卷积、批归一化和激活函数)处理,得到中间特征M_a。M_a与中间层特征m2通过逐元素相乘进行自适应融合,放大互补响应,抑制冗余激活,得到M_b。 * 跨层连接与预测生成: 类似地,m2经上采样和卷积后,与最浅层特征m1以及M_a进行逐元素相乘,得到特征M_c。同时,m1经过卷积处理后与M_b拼接,再经过卷积和上采样,得到特征M_d。最后,将M_c和M_d在通道维度拼接,经过两个连续的卷积模块进行精炼和深层语义融合,最终通过一个1x1卷积层生成初始的粗粒度分割预测图p1。MSFM通过这种方式有效桥接了编码器不同阶段间的语义鸿沟,聚合了高层语义与浅层细节。
4. 前景结构补充模块(FSSM): 鉴于MSFM生成的初始预测p1可能较为粗糙,FSSM被设计用于迭代地细化和补充前景结构,其核心思想是利用反向注意力聚焦于可能被遗漏的前景区域。 * 反向注意力(Reverse Attention): 首先,对初始预测图p1应用Sigmoid函数并计算其反向图(R_i = 1 - Sigmoid(p1))。这相当于将初步预测的前景区域掩蔽,从而突出背景和潜在被遗漏的前景区域。 * 坐标注意力(Coordinate Attention): 为了缓解前景/背景过渡区域因二值化导致的边缘结构损失,将反向图R_i输入坐标注意力机制。该机制通过对空间位置进行加权,能够增强背景响应并抑制前景激活,从而更精确地定位模糊边界。 * 特征增强与结构补充: 坐标注意力的输出与对应编码器阶段的高层特征图f_i进行逐元素相乘,以利用编码器的丰富语义信息来增强对潜在前景区域的关注。随后,结果被送入一个新颖的残差注意力卷积模块(Residual Attention Convolution Module, RACM)。RACM通过集成残差路径和动态权重调制机制,有效捕获复杂的特征交互和空间层次,最终输出一个更精细的分割预测图。FSSM会执行两次,以实现对前景结构的逐步校准和增强。
5. 损失函数与训练细节: 网络在解码过程中共产生四个预测图(p1, p2, p3, p4)。训练时采用Dice损失和交叉熵(Cross-Entropy)损失的组合,并在四个预测图上施加深度监督(Deep Supervision),总损失为两者加权和(权重均设为0.5)。模型使用PyTorch框架实现,在NVIDIA GeForce RTX 2080 Ti GPU上训练,使用SGD优化器,批量大小为4,共训练400个周期,并采用了随机旋转和翻转等数据增强技术。
四、 主要实验结果与分析
研究在五个公开的医学图像分割基准数据集上进行了全面评估:Synapse(多器官CT)、ACDC(心脏MRI)、BUSI(乳腺超声)、ISIC2017和ISIC2018(皮肤镜图像)。
1. 消融实验(Ablation Study): * 参数消融: 通过改变Swin Transformer各阶段的层数构建了多个变体(Tiny, Small, Base, Medium, Large)。在Synapse数据集上的实验表明,采用[4,4,4]层配置的DMA-Net-Medium取得了最佳性能(平均DSC 84.47%,HD95 9.19),优于层数更多的Large版本,说明并非层数越多越好,存在性能饱和点。同时,测试了MSCM中不同卷积核组合([1,3,5], [3,5,7], [5,7,9]),发现[3,5,7]的配置效果最好。 * 结构消融: 系统性地移除了DMA-Net中的各个关键组件,以验证其必要性。 * 双流编码器: 仅使用Transformer分支或仅使用CNN分支时,模型性能大幅下降(平均DSC分别降至73.99%和74.16%)。可视化分析显示,缺少Transformer分支会损害全局上下文建模,导致大器官结构丢失;缺少CNN分支则会损害局部特征提取,导致小器官分割错误。这证明了双流融合的有效性。 * SE注意力机制: 移除SE模块后,平均DSC从84.47%降至83.01%,且可视化结果显示会出现对无关器官的错误分割,证明了通道注意力在抑制无关信息、放大关键特征方面的重要性。 * MSCM模块: 移除后平均DSC下降1.55个百分点,尤其在胆囊和胃的分割上性能下降明显,证明了该模块在增强多尺度感知能力方面的关键作用。 * FSSM模块: 移除后性能下降最为显著,平均DSC从84.47%骤降至78.54%,HD95从9.19上升至19.44。可视化分析证实,FSSM能显著改善肝脏、胃等器官的结构完整性和边界精度,凸显了其在前景结构细化和补充中的核心价值。 * MSFM模块: 移除后平均DSC下降至83.16%,HD95上升至12.16。可视化表明,该模块能有效改善肝脏等复杂结构的轮廓描绘,证明了其整合多级特征、提供精确引导的能力。
2. 与先进方法的对比实验: * Synapse多器官分割: DMA-Net在平均Dice相似系数(DSC)上达到了84.47%,在95%豪斯多夫距离(HD95)上达到了9.19,均优于所列的所有对比方法,包括纯CNN模型(如U-Net)、纯Transformer模型(如Swin-UNet, MissFormer)以及混合模型(如TransUNet, HiFormer, ParaTransCNN)。特别是在胆囊和脾脏等小器官的分割上,DMA-Net表现突出,分别比当时的最佳结果提升了0.63%和0.32%。 * ACDC心脏分割: DMA-Net取得了91.47%的平均DSC,超越了对比方法。可视化结果(图4)显示,其在心肌(Myo)分割上表现优异,能有效识别和定位心肌组织,证明了模型处理复杂、细节敏感的心脏结构的能力。 * BUSI、ISIC2017和ISIC2018分割: 在这三个数据集上,DMA-Net的平均DSC分别达到81.23%、86.24%和91.27%,综合平均DSC为86.17%,均优于其他先进方法。可视化结果(图5,图6)表明,DMA-Net在病变边界描绘和细节保留方面具有明显优势。 * 性能与效率权衡: DMA-Net拥有1.224亿参数和88.31 GFLOPs的计算量。虽然参数量大于U-Net(3104万)等轻量模型,但其分割精度(DSC 84.47%)显著更高。与参数量高达2.4547亿、计算量568.10 GFLOPs的ParaTransCNN相比,DMA-Net在保持竞争力的分割性能的同时,大幅降低了计算开销,展现了更优的资源效率和实用性。
五、 研究结论与价值
本研究成功提出并验证了DMA-Net,一个基于双流特征融合与前景结构补充的高效、鲁棒的医学图像分割框架。该研究的主要结论与价值体现在:
六、 研究亮点
七、 其他有价值内容
研究团队已公开了本工作的全部源代码(GitHub地址:https://github.com/swq308/dma-net),这有利于促进学术界的复现、验证和进一步研究,体现了研究的开放性和可重复性。作者在文中也展望了未来的研究方向,包括对模型进行压缩和轻量化设计以提升计算效率,以及推动算法在实际临床环境中的部署和应用。