本文旨在向您介绍由程冬旭、张静文、董启伟、杨燕、郑玉辉共同撰写,发表于《Applied Soft Computing》期刊(2026年)的一项创新性研究。这项研究针对医学图像分割领域的关键挑战,提出了一种名为MFAformer的新型网络架构。以下将从七个方面对该研究进行详细阐述。
第一, 研究作者、机构与发表信息 本研究的作者团队来自中原工学院。程冬旭(第一作者及通讯作者)、张静文、董启伟、郑玉辉隶属于数学与信息科学学院,杨燕隶属于信息与通信工程学院。该研究以论文形式《MFAformer: Multi-scale feature enhancement with axial transformer for medical image segmentation》发表于《Applied Soft Computing》期刊,并于2026年6月16日被接受。文章DOI为https://doi.org/10.1016/j.asoc.2026.115792。
第二, 研究的学术背景与目标 本研究属于计算机视觉与医学图像分析交叉领域,具体聚焦于医学图像分割任务。该任务是生物医学分析(如诊断、病灶定位、器官勾画和治疗规划)的基础。然而,医学图像分割面临诸多固有挑战,包括边界模糊、病灶形状和大小多变、目标定位不精确、图像噪声干扰以及目标与背景对比度低等。
从技术发展脉络看,基于U-Net的卷积神经网络(CNN)架构因其在捕获局部细节和纹理方面的优势而被广泛应用。但CNN受限于其局部感受野,难以有效建模图像中的长程依赖关系。另一方面,视觉Transformer(Vision Transformer, ViT)通过自注意力(Self-Attention)机制能够捕获全局上下文信息,但其计算复杂度高(二次复杂度),且在处理图像时容易丢失细粒度的空间信息。现有的混合CNN-Transformer模型尝试结合两者优势,但仍面临特征表示的异质性、跳跃连接中的语义鸿沟,以及局部细节与全局建模之间的对抗等瓶颈问题。
基于此,本研究旨在克服上述局限性,提出一个新颖的、能够有效融合局部细节与全局上下文信息的医学图像分割框架。具体目标包括:设计一种能够有效整合编码器多尺度特征的机制;提升跳跃连接中特征传递的针对性和有效性;构建一个能够同时增强边界表示和上下文建模能力的解码器;最终在多个公开数据集上验证所提方法的优越性和泛化能力。
第三, 研究的详细工作流程 本研究提出了一种名为MFAformer(多尺度特征增强轴向Transformer)的新型网络架构。其核心创新在于三个协同工作的模块:多级特征补充模块(Multi-level Feature Supplement module, MLFS)、跨尺度特征增强模块(Cross-scale Feature Enhancement module, CFE)和基于轴向Transformer的双向解码器(Dual-directional decoder via Axial transformer, D2Aformer)。整体工作流程如下:
1. 整体架构与数据处理: 研究在四个公开医学图像数据集上进行了综合评估:3D-IRCADb(肝脏肿瘤CT)、BUSI(乳腺超声图像)、Kvasir-SEG(结肠息肉)和ISIC 2017(皮肤镜图像)。所有输入图像均被归一化至512×512分辨率,对应的真实标注(Ground Truth, GT)也进行相同预处理。对于3D-IRCADb数据集,从3D体积数据中提取2D轴向切片。研究采用五折交叉验证法进行模型训练与测试,以确保评估的鲁棒性。未使用数据增强技术。
2. 网络模块设计与实验流程: 整个MFAformer架构以U形结构为基础,编码器提取多尺度特征,解码器逐步恢复空间分辨率。三个核心模块被嵌入此流程中: * 编码阶段:输入图像经过编码器,生成不同层级的特征图(E1, E2, E3, E4)。 * 瓶颈处理(MLFS模块):编码器最后三层的特征(E2, E3, E4)被送入MLFS模块。该模块首先通过不同感受野的卷积处理各层特征,然后进行拼接和深度可分离卷积(Depthwise Separable Convolution)以生成值(Value)矩阵。其关键创新在于引入了区域级兴趣注意力(Region-level Interest Attention, RIA)。RIA将特征图分割为不重叠的块(Patch),通过计算块间的语义相关性,为每个块仅关注与其最相关的k个区域,从而学习更精细的表示。MLFS利用RIA处理后的特征作为查询(Query)、键(Key)和偏置(Bias),进行跨注意力(Cross-Attention)计算,实现多级特征的深度融合与补充,生成富含上下文信息的聚合特征图(M2, M3, M4, D5)。这些特征随后被上采样或下采样以匹配不同跳跃连接的尺度。 * 跳跃连接增强(CFE模块):CFE模块被嵌入到跳跃连接中。它接收来自编码器的原始特征(Ei)和来自MLFS的对应聚合特征(Mi)作为双输入。CFE采用多视图协作策略,通过三个并行的分支来增强特征: * 通道注意力分支:使用深度可分离卷积和全局平均池化(Global Average Pooling, GAP)来强调信息丰富的通道。 * 局部提议注意力分支:引入区域提议网络(Region Proposal Network, RPN)来生成可能包含目标的候选区域框,并仅在这些候选区域内计算自注意力,从而聚焦于目标纹理细节。 * 跨注意力Transformer分支:使用一个交叉注意力Transformer(Crossformer)来整合编码器特征和MLFS特征的全局上下文信息。 三个分支的输出通过元素相加进行融合,生成增强后的跳跃连接特征(Ei’),传递给解码器。这一设计旨在抑制信息冗余,强调相关目标特征。 * 解码重建(D2Aformer解码器):解码器采用新颖的D2Aformer模块。该模块采用循环互补结构,包含两条路径: * CNN路径:对来自上一解码层的特征(Di)进行四个方向(左上到右下沿行、左上到右下沿列、右上到左下沿行、右上到左下沿列)的展开,然后分别应用1×K和K×1的大核卷积(Macro-Convolution)来捕获长程的、方向性的上下文信息,以强化边界表示。重构后的方向特征会与来自MLFS的对应特征计算结构相似性指数(SSIM),并以此作为权重进行加权求和,实现特征引导。 * 轴向Transformer路径:将CFE增强的特征与CNN路径输出融合,然后分别沿高度和宽度维度进行全局最大池化(Global Max Pooling, GMP)和GAP,得到包含轴向全局信息的特征。接着,通过一个交叉多头自注意力(Cross-MHSA) 机制(而非标准MHSA)来处理这两个轴向特征流,使它们能够直接交互,从而捕获全局依赖关系。 CNN路径和轴向Transformer路径的输出最终相加,形成当前解码层的输出。这种设计旨在协同利用CNN的局部细节提取能力和Transformer的全局上下文建模能力。 * 训练与优化细节:所有实验在Ubuntu系统上使用PyTorch框架和NVIDIA 4090 GPU进行。采用随机梯度下降(SGD)优化器,动量为0.9,初始学习率为1e-4,并配合StepLR学习率衰减策略。采用结合Dice损失和二元交叉熵(Binary Cross-Entropy, BCE)损失的复合损失函数,并通过深度监督(Deep Supervision)在多个解码层计算损失。训练最多进行200个周期,并采用早停策略。
第四, 研究的主要结果 研究在四个数据集上进行了广泛的对比实验和消融实验,以验证MFAformer的有效性。评价指标包括Dice相似系数(Dice)、交并比(IoU)、准确率(Accuracy)、精确率(Precision)和召回率(Recall)。
1. 与先进方法的对比实验: * 3D-IRCADb数据集:MFAformer取得了所有方法中的最佳性能,Dice达到90.17%,IoU达到86.38%,分别比次优方法高出3.84%和0.97%。与基准U-Net相比,提升更为显著(Dice提升10.04%,IoU提升13.78%)。同时,在准确率(99.96%)、精确率(94.38%)和召回率(93.92%)上也均为最优。可视化结果(图7)显示,MFAformer能更精确地勾画目标区域边界,即使在噪声干扰和小目标情况下也表现优异,而其他方法则存在边界模糊、形态不完整或误分割等问题。 * BUSI数据集:MFAformer的Dice和IoU分别为75.43%和67.86%,显著优于U-Net(分别提升17.17%和18.07%)。其精确率达到83.71%,比次优方法高出10.04%,表明其抑制假阳性区域的能力突出。这得益于CFE模块的多维注意力融合机制。 * Kvasir-SEG数据集:MFAformer的Dice(87.15%)和IoU(79.96%)同样领先,分别比次优方法X-Unet高出1.81%和0.13%。其精确率(91.88%)和召回率(88.18%)也达到最高,显示出在捕获完整目标区域和避免过分割方面的良好平衡能力。可视化结果(图8)证实了其在复杂背景下精确分割息肉边界的能力。 * ISIC 2017数据集:面对皮肤病变边界模糊、与正常皮肤对比度低的挑战,MFAformer仍以Dice 85.72%、IoU 77.71%的成绩领先。可视化对比(图9)表明,MFAformer的预测轮廓与真实标注吻合度最高,而其他方法则存在预测碎片化、边界不准确等问题。
这些对比实验结果表明,MFAformer在多种医学图像分割任务上均实现了最先进的性能,证明了其强大的泛化能力和鲁棒性。收敛曲线(图6)也显示MFAformer具有更快的收敛速度和更稳定的训练过程。
2. 消融实验: 研究在3D-IRCADb和BUSI数据集上对三个核心模块进行了系统的消融分析(表5)。以3D-IRCADb为例: * 仅加入MLFS模块,Dice从基线(U-Net)的80.13%提升至85.98%,IoU从72.6%提升至80.33%,证明了其对多尺度特征融合和目标区域特征提取的有效性。 * 仅加入D2Aformer解码器,Dice和IoU分别达到84.27%和78.52%,显示了其在增强边界细节和空间一致性方面的作用。 * 仅加入CFE模块,Dice提升至86.30%,IoU提升至80.53%,验证了其通过多分支注意力机制增强目标特征、抑制冗余信息的能力。 * 当三个模块全部集成时,性能达到最优(Dice 90.17%, IoU 86.38%),显著高于任何单一模块或两两组合的效果,证明了三个模块的协同作用和互补性。
热力图可视化(图10)进一步佐证了消融分析。单独使用某个模块时,预测结果存在缺陷:CFE可能遗漏边界细节,MLFS可能在复杂背景中产生虚假响应,D2Aformer对空间级细节不敏感。而完整模型则能综合各模块优势,产生最接近真实标注的预测。
3. 效率分析: 研究还评估了模型的参数量、浮点运算数(FLOPs)和单张图像推理时间(表6)。完整MFAformer的参数量为598.67M,FLOPs为5.78T,单图推理时间为184.50ms。其中,D2Aformer模块对计算成本影响最大,主要源于Transformer的自注意力机制。尽管模型复杂度高于基线,但带来的分割性能提升是显著的。作者也指出,这是Transformer全局建模能力与计算效率之间的权衡,未来将探索线性复杂度注意力等轻量化策略。
第五, 研究的结论与价值 本研究成功提出并验证了MFAformer,一个用于医学图像分割的新型多尺度特征增强轴向Transformer网络。通过MLFS、CFE和D2Aformer三个创新模块的协同工作,该网络有效解决了医学图像分割中边界模糊、目标尺度多变、局部细节与全局上下文难以兼顾等核心挑战。
科学价值:1)提出了一种新的特征融合范式,通过MLFS和CFE模块,实现了编码器多尺度特征的深度、选择性融合,缓解了语义鸿沟问题。2)设计了一种循环互补的解码器结构(D2Aformer),创造性地将方向性大核卷积与轴向注意力结合,为同时建模局部细节和长程依赖提供了新思路。3)验证了在医学图像分割任务中,通过精心设计的模块化协作,可以更有效地结合CNN和Transformer的优势,提升模型性能。
应用价值:MFAformer在肝脏肿瘤、乳腺病变、结肠息肉和皮肤病变等多个分割任务上均展现出卓越的准确性和鲁棒性,表明其具有广泛的临床适用潜力,可用于辅助医生进行更精确、高效的病灶定位与定量分析,有望提升计算机辅助诊断系统的性能。
第六, 研究的亮点 1. 架构创新:提出了一个集成了三个新颖模块(MLFS、CFE、D2Aformer)的完整分割框架,模块间层次清晰、功能互补。 2. 方法新颖性: * MLFS模块中的RIA机制:引入区域级兴趣注意力,实现更精细的、基于区域相关性的特征补充。 * CFE模块的多分支注意力融合:将通道注意力、基于RPN的局部注意力、全局窗口注意力和跨注意力有机结合,动态优化跳跃连接中的特征传递。 * D2Aformer的双向增强路径:采用方向性大核卷积与轴向Transformer交叉注意力相结合的循环结构,协同增强边界表示和全局上下文建模。 3. 实验充分性:在四个具有不同模态和挑战的公开数据集上进行了全面评估,并与众多前沿方法进行了对比,结果具有说服力。同时,详尽的消融实验和可视化分析深入揭示了各模块的贡献和作用机制。 4. 问题针对性:研究直指当前CNN-Transformer混合模型在医学图像分割中的核心瓶颈(语义鸿沟、局部-全局对抗),并提出了有效的解决方案。
第七, 其他有价值的内容 1. 损失函数:研究采用了Dice损失与BCE损失结合的复合损失,并应用了深度监督,这有助于缓解类别不平衡问题并改善梯度流动。 2. 局限性讨论:作者在结论部分坦诚指出了MFAformer的局限性,即Transformer自注意力机制带来的较高计算复杂度(FLOPs增加)。这体现了研究的客观性,并为未来工作(如设计线性复杂度注意力)指明了方向。 3. 开源与伦理声明:虽然文中未提及代码是否开源,但声明所有数据均来自公开数据集,并遵循了相应的使用协议和隐私保护规定,且声明无利益冲突,符合学术规范。