SCEA-Net：一种用于精确三维医学图像分割的空间-通道感知外部注意力混合框架

分享自：
SCEA-Net：一种用于精确三维医学图像分割的空间-通道感知外部注意力混合框架

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2025.108807
本文介绍了一项发表于《Biomedical Signal Processing and Control》期刊2026年第113卷的原创性研究，题为“SCEA-Net: A Hybrid Framework from Spatial-Channel-Aware External Attention for Accurate 3D Medical Image Segmentation”。该研究由来自中南民族大学、四川大学华西医院、BGI Research等机构的研究人员共同完成，旨在解决当前三维医学图像分割领域的关键挑战。
研究背景与目的 在医学图像分析领域，精确的图像分割对于疾病诊断和治疗规划至关重要。近年来，基于深度学习的方法，特别是卷积神经网络（CNN）和视觉Transformer（ViT）模型，已取得显著进展。然而，这两类主流方法均存在固有局限：CNN擅长提取局部特征，但其卷积算子的感受野有限，难以捕获长程依赖关系；而基于Transformer的方法虽能通过自注意力机制（Self-Attention）建立全局依赖，但其计算复杂度随输入尺寸呈二次方增长，处理三维医学图像时计算负担沉重。此外，Transformer编码阶段的下采样操作常导致细节特征丢失，其提取多尺度上下文信息的能力也有限。为了克服这些挑战，本研究团队提出了一种新颖的混合框架——SCEA-Net，其核心目标是实现更精确、更高效的三维医学图像分割。具体而言，研究旨在整合CNN与注意力机制的优势，设计一种能够同时捕捉跨样本相关性、空间与通道信息，并最大限度保留图像细节的分割模型。
研究方法与流程 本研究提出了一种名为SCEA-Net的新型三维医学图像分割模型，其整体架构采用编码器-解码器的U型结构，并融入了深度监督技术。研究流程主要包括模型架构设计、核心模块创新、实验验证与对比分析。
模型整体架构：SCEA-Net的编码器包含四个阶段。第一阶段为补丁嵌入（Patch Embedding），将输入图像重塑为一系列补丁。后续三个阶段均以空间-通道感知外部注意力模型（Spatial-Channel-Aware External Attention Model, SCEAM）作为上下文建模的主干，每个阶段后接一个并行池化与卷积下采样模块（Parallel Pooling and Convolutional Down-sampling, PPCD）以降低分辨率。解码器结构与编码器对称，通过转置卷积进行上采样，并利用跳跃连接融合编码器不同尺度的特征。模型在解码器的最后三个阶段连接了三个分割头，用于预测相应分辨率的分割结果。最终，通过一个残差块融合原始输入的卷积特征以生成最终预测。
核心创新模块：
空间-通道感知外部注意力模型（SCEAM）：这是SCEA-Net的核心模块，用于建模全局依赖关系。与传统的自注意力机制不同，SCEAM引入了外部注意力（External Attention）。自注意力仅在单个样本内部计算元素间关系，计算复杂度高（O(N²d)）。外部注意力则利用两个独立于样本、在整个数据集上共享的内存单元（Memory Units）来学习最具区分性的特征表示，其计算复杂度为线性（O(dSN)，其中S<，为超参数），从而显著降低了模型复杂度。SCEAM采用并行结构，包含空间外部注意力（Spatial External Attention, SEA）和通道外部注意力（Channel External Attention, CEA）两个分支，分别从空间维度和通道维度捕获长程依赖和通道间相互依赖性。两个分支共享查询（Query）矩阵，以实现空间与通道信息的互补。注意力图经融合后，再通过卷积块进行变换，得到增强的特征表示。
并行池化与卷积下采样模块（PPCD）：为了解决传统U型网络中仅使用池化层下采样导致细节信息丢失的问题，研究团队设计了PPCD模块。该模块包含两个并行分支：一个分支使用最大池化快速降低分辨率；另一个分支使用扩张卷积块（Dilated Convolution Block），通过自适应调整的扩张率来提取丰富的多尺度特征，并利用步长为2的卷积进行下采样以保留更多空间细节。两个分支的输出被拼接后，再通过卷积层进行融合与通道调整。这种设计旨在减少下采样过程中的特征损失，丰富语义信息。
实验设计与数据：为验证模型有效性，研究在四个公开的三维医学图像分割数据集上进行了广泛实验：
Synapse多器官CT分割数据集：30个病例，3779个切片，分割8个腹部器官。
ACDC心脏MRI分割数据集：100名患者，分割左心室、右心室和心肌。
MSD脑肿瘤分割数据集（Tumor）：484个多模态MRI图像，分割整个肿瘤、增强肿瘤和核心肿瘤。
MSD左心房分割数据集（Heart）：20个MRI扫描，分割左心房。 研究采用五折交叉验证以评估模型鲁棒性。评价指标包括戴斯相似系数（Dice Similarity Coefficient, DSC）和豪斯多夫距离95百分位数（Hausdorff Distance 95%, HD95）。模型实现基于PyTorch，使用SGD优化器，并采用了与对比方法一致的数据增强策略和损失函数（交叉熵损失与Dice损失之和）。
消融实验与分析：研究进行了系统的消融实验以验证各模块的贡献：
SCEAM的有效性：在ACDC、Synapse和Tumor数据集上，将SCEAM中的外部注意力替换为自注意力后，模型性能（DSC）出现下降，尤其在Tumor数据集上DSC下降1.62%，HD95增加5.05毫米。这证实了外部注意力通过捕获跨样本相关性，能提供比自注意力更全面的特征表示。
PPCD模块的影响：与仅使用外部注意力相比，结合PPCD模块后，在三个数据集上的平均DSC均有所提升，且在ACDC和Synapse数据集上的HD95显著降低，证明了PPCD在保留细节信息方面的有效性。
深度监督（DS）的作用：引入深度监督后，模型在Synapse数据集上的DSC提升了0.56%，表明其有助于优化解码器特征重建过程，加速收敛并提升泛化能力。
激活函数选择：实验对比了Swish、GELU和LeakyReLU激活函数，结果表明在本模型中使用LeakyReLU能获得最佳性能。
主要研究结果 1. Synapse数据集：SCEA-Net取得了最佳性能，平均DSC达到85.95%，HD95为9.89毫米。其DSC比当前表现优异的CNN方法NNU-Net（84.20%）高出1.75%，HD95也显著更低。特别是在主动脉、肝脏、胰腺和胃等器官的分割上表现优异。可视化结果（图5）显示，对比方法如TransUNet和MissFormer存在器官分割不完整或边界混淆的问题，而SCEA-Net的分割结果更接近真实标注。 2. ACDC数据集：SCEA-Net的平均DSC为91.74%，超越了Swin-UNet（90.00%）、NNU-Net（91.54%）和TC-Conet（91.58%）等先进方法。可视化结果（图6）表明，SCEA-Net能更准确地分割出心肌等精细结构，而其他方法存在定位不准或分割不均匀的问题。 3. Tumor数据集：SCEA-Net的平均DSC为85.2%，HD95为3.8毫米，均优于UNETR++（83.1%）、NNU-Net（84.1%）和TC-Conet（84.5%）等方法。对于形状不规则的脑肿瘤子区域，SCEA-Net展现了更强的分割能力（图7）。 4. Heart数据集：在数据量有限的情况下，SCEA-Net仍取得了93.73%的DSC，优于UNETR++（93.57%）和NNFomer（93.51%），证明了其在少样本场景下的学习能力（图8）。 5. 模型复杂度对比：尽管SCEA-Net性能优越，但其参数量控制得当。如图12所示，其参数量远低于TransUNet、UNETR等混合模型，与Swin-UNet等纯Transformer模型接近，体现了模型在性能与效率间的良好平衡。 6. 五折交叉验证：在三个主要数据集上进行五折交叉验证的结果（表9）显示，模型在不同数据划分下性能稳定，平均DSC和HD95与单次实验结论一致，ROC曲线下面积（AUC）均接近0.95，证明了模型的鲁棒性和泛化能力。
结论与意义 本研究成功提出并验证了SCEA-Net，一个用于精确三维医学图像分割的新型混合框架。该模型的核心贡献在于：1）引入了空间-通道感知外部注意力机制（SCEAM），通过并行的外部注意力分支有效捕获了跨样本、空间和通道的全局依赖，同时以线性计算复杂度降低了模型负担；2）设计了并行池化与卷积下采样模块（PPCD），有效缓解了传统下采样中的细节丢失问题。广泛的实验表明，SCEA-Net在四个具有挑战性的医学图像分割任务上均达到了最先进的性能，同时保持了较高的计算效率。这项工作为结合CNN局部特征提取能力和注意力机制全局建模优势提供了一种新颖且高效的“点对点”融合范式，而非传统的“模块对模块”堆叠，推动了三维医学图像分割技术的发展。
研究亮点 1. 方法创新性：首次将外部注意力机制系统性地引入三维医学图像分割，并创新性地设计了并行空间与通道外部注意力结构，有效建模了跨样本相关性，这是对传统自注意力机制的重要改进。 2. 细节保留设计：提出的PPCD模块巧妙结合了池化的高效性和卷积的细节保留能力，针对下采样过程中的信息损失问题提供了有效的解决方案。 3. 全面且严谨的验证：研究在四个不同模态、不同解剖结构的公开数据集上进行了全面测试，并通过详尽的消融实验、与多种SOTA方法的对比、五折交叉验证及可视化分析，充分证明了模型的有效性、鲁棒性和优越性。 4. 性能与效率的平衡：模型在显著提升分割精度的同时，通过外部注意力的线性计算和高效的结构设计，控制了模型参数量，展现了良好的实用潜力。
讨论与未来方向 论文也坦诚地讨论了模型的局限性。例如，在分割形状极其不规则的区域时（如某些脑肿瘤），边界分割的平滑度仍有提升空间（图13）。这可能是因为外部注意力更侧重于全局特征，对边缘细节的敏感性相对不足。此外，深度监督带来的性能提升相对有限，作者认为其缺乏对解码特征的自适应选择能力。对于多尺度特征融合，当前模型主要依赖简单的特征相加，未来可探索更先进的跨尺度特征交互机制（如SSCFormer中的尺度间Transformer桥）。展望未来，研究团队计划引入自监督学习和小样本学习来应对医学图像标注数据稀缺的挑战，并进一步优化模型结构，特别是在多尺度特征融合和边界增强方面，以提升模型对复杂解剖结构的泛化能力和分割精度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问