本文介绍了一项发表于《Biomedical Signal Processing and Control》期刊2026年第113卷的原创性研究,题为“SCEA-Net: A Hybrid Framework from Spatial-Channel-Aware External Attention for Accurate 3D Medical Image Segmentation”。该研究由来自中南民族大学、四川大学华西医院、BGI Research等机构的研究人员共同完成,旨在解决当前三维医学图像分割领域的关键挑战。
研究背景与目的 在医学图像分析领域,精确的图像分割对于疾病诊断和治疗规划至关重要。近年来,基于深度学习的方法,特别是卷积神经网络(CNN)和视觉Transformer(ViT)模型,已取得显著进展。然而,这两类主流方法均存在固有局限:CNN擅长提取局部特征,但其卷积算子的感受野有限,难以捕获长程依赖关系;而基于Transformer的方法虽能通过自注意力机制(Self-Attention)建立全局依赖,但其计算复杂度随输入尺寸呈二次方增长,处理三维医学图像时计算负担沉重。此外,Transformer编码阶段的下采样操作常导致细节特征丢失,其提取多尺度上下文信息的能力也有限。为了克服这些挑战,本研究团队提出了一种新颖的混合框架——SCEA-Net,其核心目标是实现更精确、更高效的三维医学图像分割。具体而言,研究旨在整合CNN与注意力机制的优势,设计一种能够同时捕捉跨样本相关性、空间与通道信息,并最大限度保留图像细节的分割模型。
研究方法与流程 本研究提出了一种名为SCEA-Net的新型三维医学图像分割模型,其整体架构采用编码器-解码器的U型结构,并融入了深度监督技术。研究流程主要包括模型架构设计、核心模块创新、实验验证与对比分析。
模型整体架构:SCEA-Net的编码器包含四个阶段。第一阶段为补丁嵌入(Patch Embedding),将输入图像重塑为一系列补丁。后续三个阶段均以空间-通道感知外部注意力模型(Spatial-Channel-Aware External Attention Model, SCEAM)作为上下文建模的主干,每个阶段后接一个并行池化与卷积下采样模块(Parallel Pooling and Convolutional Down-sampling, PPCD)以降低分辨率。解码器结构与编码器对称,通过转置卷积进行上采样,并利用跳跃连接融合编码器不同尺度的特征。模型在解码器的最后三个阶段连接了三个分割头,用于预测相应分辨率的分割结果。最终,通过一个残差块融合原始输入的卷积特征以生成最终预测。
核心创新模块:
实验设计与数据:为验证模型有效性,研究在四个公开的三维医学图像分割数据集上进行了广泛实验:
消融实验与分析:研究进行了系统的消融实验以验证各模块的贡献:
主要研究结果 1. Synapse数据集:SCEA-Net取得了最佳性能,平均DSC达到85.95%,HD95为9.89毫米。其DSC比当前表现优异的CNN方法NNU-Net(84.20%)高出1.75%,HD95也显著更低。特别是在主动脉、肝脏、胰腺和胃等器官的分割上表现优异。可视化结果(图5)显示,对比方法如TransUNet和MissFormer存在器官分割不完整或边界混淆的问题,而SCEA-Net的分割结果更接近真实标注。 2. ACDC数据集:SCEA-Net的平均DSC为91.74%,超越了Swin-UNet(90.00%)、NNU-Net(91.54%)和TC-Conet(91.58%)等先进方法。可视化结果(图6)表明,SCEA-Net能更准确地分割出心肌等精细结构,而其他方法存在定位不准或分割不均匀的问题。 3. Tumor数据集:SCEA-Net的平均DSC为85.2%,HD95为3.8毫米,均优于UNETR++(83.1%)、NNU-Net(84.1%)和TC-Conet(84.5%)等方法。对于形状不规则的脑肿瘤子区域,SCEA-Net展现了更强的分割能力(图7)。 4. Heart数据集:在数据量有限的情况下,SCEA-Net仍取得了93.73%的DSC,优于UNETR++(93.57%)和NNFomer(93.51%),证明了其在少样本场景下的学习能力(图8)。 5. 模型复杂度对比:尽管SCEA-Net性能优越,但其参数量控制得当。如图12所示,其参数量远低于TransUNet、UNETR等混合模型,与Swin-UNet等纯Transformer模型接近,体现了模型在性能与效率间的良好平衡。 6. 五折交叉验证:在三个主要数据集上进行五折交叉验证的结果(表9)显示,模型在不同数据划分下性能稳定,平均DSC和HD95与单次实验结论一致,ROC曲线下面积(AUC)均接近0.95,证明了模型的鲁棒性和泛化能力。
结论与意义 本研究成功提出并验证了SCEA-Net,一个用于精确三维医学图像分割的新型混合框架。该模型的核心贡献在于:1)引入了空间-通道感知外部注意力机制(SCEAM),通过并行的外部注意力分支有效捕获了跨样本、空间和通道的全局依赖,同时以线性计算复杂度降低了模型负担;2)设计了并行池化与卷积下采样模块(PPCD),有效缓解了传统下采样中的细节丢失问题。广泛的实验表明,SCEA-Net在四个具有挑战性的医学图像分割任务上均达到了最先进的性能,同时保持了较高的计算效率。这项工作为结合CNN局部特征提取能力和注意力机制全局建模优势提供了一种新颖且高效的“点对点”融合范式,而非传统的“模块对模块”堆叠,推动了三维医学图像分割技术的发展。
研究亮点 1. 方法创新性:首次将外部注意力机制系统性地引入三维医学图像分割,并创新性地设计了并行空间与通道外部注意力结构,有效建模了跨样本相关性,这是对传统自注意力机制的重要改进。 2. 细节保留设计:提出的PPCD模块巧妙结合了池化的高效性和卷积的细节保留能力,针对下采样过程中的信息损失问题提供了有效的解决方案。 3. 全面且严谨的验证:研究在四个不同模态、不同解剖结构的公开数据集上进行了全面测试,并通过详尽的消融实验、与多种SOTA方法的对比、五折交叉验证及可视化分析,充分证明了模型的有效性、鲁棒性和优越性。 4. 性能与效率的平衡:模型在显著提升分割精度的同时,通过外部注意力的线性计算和高效的结构设计,控制了模型参数量,展现了良好的实用潜力。
讨论与未来方向 论文也坦诚地讨论了模型的局限性。例如,在分割形状极其不规则的区域时(如某些脑肿瘤),边界分割的平滑度仍有提升空间(图13)。这可能是因为外部注意力更侧重于全局特征,对边缘细节的敏感性相对不足。此外,深度监督带来的性能提升相对有限,作者认为其缺乏对解码特征的自适应选择能力。对于多尺度特征融合,当前模型主要依赖简单的特征相加,未来可探索更先进的跨尺度特征交互机制(如SSCFormer中的尺度间Transformer桥)。展望未来,研究团队计划引入自监督学习和小样本学习来应对医学图像标注数据稀缺的挑战,并进一步优化模型结构,特别是在多尺度特征融合和边界增强方面,以提升模型对复杂解剖结构的泛化能力和分割精度。