近日,由来自宁波大学附属李惠利医院、徐州中心医院、南昌大学等机构的研究者共同完成的一项医学图像分割研究在《npj Digital Medicine》期刊上发表。该论文题为“CFG-MambaNet: Contextual and Frequency-Guided Mamba Network for Medical Image Segmentation”,针对现有医学图像分割模型在全局上下文建模、精确边界描绘和鲁棒泛化能力方面难以兼顾的挑战,提出了一种创新的融合Mamba架构与频域引导技术的新框架。
这项研究的背景植根于医学图像计算领域的前沿需求。医学图像分割旨在从复杂的医学影像中精确提取特定解剖区域,为临床诊断、治疗规划等提供可靠基础。传统手工分割效率低下且主观性强。以U-Net为代表的卷积神经网络(CNNs)及后续的改进模型(如U-Net++)推动了该领域的自动化进程,但CNN固有的局部感受野限制了其获取长程依赖信息的能力。Transformer架构凭借其自注意力机制能够突破这一限制,然而其计算复杂度与输入序列长度呈二次方关系,在高分辨率医学影像处理中计算开销巨大。近年来,基于状态空间模型(SSM)的Mamba架构展现出了在保持长程建模能力的同时实现线性计算复杂度的潜力,为平衡建模能力与计算效率提供了新思路。尽管已有研究尝试将Mamba引入医学图像分割,但仍存在关键挑战:现有Mamba网络难以在保持全局结构一致性的同时精准捕捉边界细节,尤其是在低对比度或形态多样的病灶区域;缺乏有效的自适应多尺度上下文聚合策略;以及在复杂临床环境中的鲁棒性不足。针对这些问题,本研究旨在开发一个能够高效建模全局上下文、精确分离结构与边界细节,并能自适应融合多尺度信息的新型分割框架,以提升模型在不同成像模态和复杂解剖结构下的分割精度与鲁棒性。
CFG-MambaNet框架的核心创新在于其精心设计的三大模块:基于Mamba的视觉状态空间模块(VSS)、频率引导表征模块(FGR)和多尺度自适应上下文聚合模块(MSACA)。整体采用编码器-解码器架构。
首先,VSS模块是整个框架高效建模长程依赖的核心。它基于Mamba的线性状态空间模型,通过一个称为“扫描扩展与合并”的二维扩展S6块来工作。对于输入的二维特征图,该模块沿四个空间方向(水平、垂直)进行展开,将其转化为序列,然后在每个方向上应用状态空间递归来建模该方向上的长程依赖关系。这些方向性的输出再被合并回二维空间,并通过可学习的注意力权重进行加权融合。为了同时捕获局部边界纹理特征,VSS模块还巧妙地结合了深度可分离卷积,并与全局SSM路径并行处理,最后通过门控机制进行融合。这一设计实现了对全局解剖关系的高效、线性复杂度建模,从根本上解决了Transformer类模型的二次方计算瓶颈。
其次,FGR模块的引入是为了显式地分离全局结构和边界细节,以应对医学影像中普遍存在的轮廓模糊或纹理微弱的病灶。该模块的思路源于图像在频域中的自然分解:低频分量通常承载着器官或病灶的全局形态信息,而高频分量则包含边界轮廓和细节纹理。FGR模块将空间域特征通过快速傅里叶变换映射到频域,然后引入一个可学习的复权重矩阵,对不同频率分量进行有选择性的调制。具体而言,该权重矩阵包含幅度控制项(ρ)和相位调整项(φ),能够增强有助于分割的低频轮廓和高频边界信息,同时抑制由成像噪声导致的无益高频成分。调制后的频域特征再通过逆变换映射回空间域,并进行点卷积、批量归一化和激活函数处理。通过这种跨域互补建模,模型在处理低对比度边界时的鲁棒性得到显著增强。
第三,MSACA模块旨在解决医学图像中目标物体尺度差异巨大、形态多样的问题。它通过三个并行分支来提取不同尺度的语义信息:1)一个使用平均池化的分支,用于平滑局部纹理波动,保留全局强度趋势,提供背景上下文;2)一个使用可变形卷积(Deformable Convolution)的分支,可自适应地调整卷积核采样位置,使其贴合病灶的不规则形态,从而提升边界描绘和结构适应性;3)一个使用空洞卷积(Dilated Convolution)的分支,以扩张感受野来捕获中等尺度的上下文信息,而不显著增加参数量。三个分支的输出通过一组固定的超参数权重(η1, η2, η3)进行融合。融合后,该模块进一步引入了一个新颖的“双Top-K稀疏注意力”机制。它将特征映射线性投影为查询(Q)、键(K)、值(V),并计算注意力权重矩阵。不同于全连接注意力,该机制选择两个不同比例(如K1和K2)的Top-K最大注意力连接进行保留,将其余置为负无穷(在Softmax后变为零)。最终输出由两个Top-K稀疏注意力分支的结果加权求和得到。这种设计既保留了注意力机制聚焦关键区域的能力,又通过稀疏化大幅降低了计算负担,并减轻了噪声传播,特别适用于高分辨率医学图像。
在训练过程中,为应对医学图像分割中常见的类别极度不平衡(前景区域小)问题,研究采用了结合交叉熵损失和Dice损失的复合损失函数,以同时约束像素级分类和区域级重叠。此外,还在解码器的多个层级引入了深度监督机制,对每个尺度的预测输出都计算复合损失,并按指数衰减分配权重,从而促进了多尺度特征的有效学习。
为了全面评估所提出框架的性能,研究团队在四个公开的医学影像数据集上进行了广泛的实验,涵盖了心脏MRI(ACDC)、结肠镜息肉(Kvasir-SEG)、皮肤镜(ISIC)和病理切片(SEED)四种不同的成像模态。实验采用Python 3.10和PyTorch 2.1.0框架,在NVIDIA A6000 GPU上进行。使用了AdamW优化器、余弦退火学习率调度以及包括旋转、缩放、噪声添加、模糊等在内的综合数据增强策略。
实验的主要结果如下:
在ACDC心脏MRI数据集上,CFG-MambaNet取得了最优异的性能:Dice系数达到92.74%,交并比(IoU)为86.22%,平均表面距离(ASD)降低至0.72,召回率达到92.43%。这一结果超越了包括nnU-Net(Dice: 91.47%)、H2Former(Dice: 92.37%)、GH-UNet(Dice: 92.57%)和Swin-UMamba(Dice: 91.30%)在内的所有基线模型。可视化结果显示,相较于传统CNN模型(如U-Net、AttUNet)产生的边界不连续或形态畸变,以及Transformer模型(如UcTransNet、H2Former)在心肌与右心室边界处的粘连模糊,所提出的方法在长轴和短轴视图上均表现出卓越的边界贴合度和结构一致性,能够准确描绘复杂弯曲的心肌边缘,为左心室容积、射血分数和心肌厚度等关键临床功能参数的测量提供了可靠支持。
在Kvasir-SEG结肠镜息肉数据集上,所提方法在复杂多变的息肉边界条件下,Dice系数达到92.84%,IoU为88.10%,ASD为3.56。尽管GH-UNet(Dice: 92.71%)和Swin-UMamba(Dice: 91.21%)也表现出色,但所提方法在召回率上达到93.56%,显著优于其他模型。可视化对比表明,面对镜面反射、血管纹理或复杂背景的挑战,传统方法易产生边界偏移或误检,而所提模型能有效抑制噪声,避免过分割或欠分割,完整保留病灶形态,这对于结直肠癌早期筛查中的腺瘤检出率评估和息肉分级具有重要价值。
在ISIC皮肤病变数据集上,所提方法Dice系数为94.46%,召回率高达97.71%,ASD为3.42,在Dice和召回率上均达到最优。EMCAD和GH-UNet虽然Dice分数接近(93.74%),但在边界精确度(ASD)上略逊一筹。实验结果表明,无论是边界规则的小病灶还是形状不规则的大病灶,所提方法的预测结果都与真实标注高度吻合,能准确捕捉病变的真实范围和细节,避免了边缘模糊或过度平滑的常见问题。
在SEED病理切片数据集上,所提方法Dice系数为86.52%,IoU为79.34%,ASD为8.69,特异性(Sp)和准确率(Acc)分别达到92.90%和91.69%,在所有对比方法中实现了最均衡的性能。这表明该方法在具有复杂腺体边界和密集细胞分布的组织结构中,能够实现更精确的边界定位和更可靠的分类,展现了其在组织学精细分析中的潜力。
除了与基线模型的对比,研究还进行了系统的消融实验以验证各个核心模块的有效性。实验表明,在四个数据集上同时启用VSS、FGR和MSACA模块时,模型的综合性能最优。移除任一模块都会导致Dice和IoU下降,以及ASD升高。例如,在ISIC数据集上,完整模型的Dice为94.46%,移除FGR模块后降至92.80%,移除MSACA后降至93.30%。损失函数消融实验证实,结合交叉熵损失(权重λce=0.3)和Dice损失(权重λdice=0.7)的复合损失函数,比单独使用任何一种损失都能带来更优的性能。此外,对MSACA模块中权重因子(η1, η2, η3)的消融研究发现,平衡的权重分配(如0.4, 0.3, 0.3)能在所有数据集上取得稳定且强劲的性能。对深度监督机制和Top-K稀疏注意力机制的单独消融也证实了它们对提升分割精度和边界质量的积极作用。
本研究提出的CFG-MambaNet框架在方法学上成功融合了线性复杂度的长程依赖建模(VSS)、频域引导的结构-细节分离(FGR)以及自适应的多尺度上下文聚焦(MSACA),有效解决了现有医学图像分割方法面临的效率、精度和鲁棒性之间的权衡难题。大量实验证明,该框架在心脏、消化道、皮肤、病理等多种医学影像模态上均能取得领先的分割性能,特别是在边界描绘准确性和对复杂形态的适应性方面表现突出。
该研究的亮点在于:第一,方法学创新:首次将Mamba架构的线性复杂度优势与频域引导的显式特征解耦思想相结合,并设计了自适应多尺度聚合与稀疏注意力机制,形成了一个高效且功能全面的分割新范式。第二,性能卓越且泛化性强:在四个差异巨大的公开数据集上全面超越现有先进方法,证明了其出色的跨模态、跨解剖结构的泛化能力。第三,临床价值明确:其高精度的分割结果,尤其是对边界的精确描绘,可直接支持射血分数、心肌厚度、息肉尺寸、病变范围等关键临床参数的定量测量,为智能诊断提供了更可靠的工具。第四,全面的实验验证:不仅进行了广泛的横向对比,还通过细致的消融研究深入剖析了每个模块和策略的贡献,增强了结论的可信度。
当然,研究也指出了当前工作的局限性,例如有待在更大规模的多中心临床队列中进一步验证鲁棒性,对超高分辨率病理全切片图像的处理仍需优化内存策略,以及模型在真实临床工作流中的可解释性和可控性有待深入探索。未来的工作将着眼于多模态融合、自监督预训练以及与临床流程的无缝集成,以进一步缩小算法创新与实际部署之间的差距。
总而言之,CFG-MambaNet为医学图像分割领域贡献了一个兼具方法论严谨性和临床实用性的强大框架,其代码已公开,为后续研究和应用提供了有价值的基准。