一种用于医学图像分割的频率增强多尺度自适应注意力网络

分享自：

一种用于医学图像分割的频率增强多尺度自适应注意力网络

影像医学与核医学

医学

信息科学

计算机科学

人工智能

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2025.108884

【点击此处】阅读全文、收藏及针对性提问

关于《FE-MAANET：一种用于医学图像分割的频率增强多尺度自适应注意力网络》研究的学术报告

本研究论文《FE-MAANET: A Frequency-Enhanced Multi-Scale Adaptive Attention Network for Medical Image Segmentation》的作者是来自重庆理工大学人工智能学院的彭科、洪毕（通讯作者）、刘一洋、陈春雨、潘钰、蒋宇和刘晓娟。该论文发表于Elsevier旗下的期刊《Biomedical Signal Processing and Control》第113卷（2026年），具体在线发表日期为2025年10月10日。

一、学术背景与研究目的

本研究的科学领域属于计算机视觉与医学图像分析的交叉领域，具体聚焦于医学图像分割任务。医学图像分割旨在从计算机断层扫描（CT）、磁共振成像（MRI）等医学影像中精确勾勒出目标区域，如器官、肿瘤等，对于临床诊断、手术规划和疾病监测至关重要。

近年来，基于深度学习的方法，尤其是卷积神经网络（Convolutional Neural Networks, CNNs）和视觉变换器（Vision Transformers, ViTs），已成为该领域的主流。以U-Net及其变体为代表的CNN模型因高效的编码器-解码器结构取得了显著成功。然而，现有方法仍面临两大核心挑战：第一，大多数方法依赖固定尺寸的卷积核进行特征提取，这限制了其自适应捕获图像中不同尺度特征（如大小各异的器官）的能力；第二，这些方法在有效建模全局上下文信息方面存在困难，而全局信息对于理解器官的整体结构和空间关系非常重要。为了应对这些局限性，本研究提出了一个基于U形架构的频率增强多尺度自适应注意力网络（Frequency-Enhanced Multi-scale Adaptive Attention Network, FE-MAANET），旨在提升模型对多尺度特征的适应能力以及全局上下文建模能力，从而在保持高效率的同时，实现更精确、更鲁棒的医学图像分割。

二、研究方法与工作流程

本研究的工作流程主要包括：提出新颖的网络架构与核心模块设计、在三个公开医学图像数据集上进行全面的实验验证、以及详细的消融研究以分析各组件贡献。整个过程围绕FE-MAANET模型展开。

1. 网络架构与核心模块设计

FE-MAANET基于经典的U形（U-Shaped）编码器-解码器结构进行构建，但其核心创新在于两个新设计的模块：多尺度自适应大核模块（Multi-Scale Adaptive Large Kernel, MSALK）和频率-空间并行注意力模块（Frequency-Spatial Parallel Attention, FSPA）。

编码器：由四个阶段（Stage）组成，每个阶段包含多个RepBlock（一种在训练时为多分支、推理时可重构为单分支3x3卷积以提升效率的模块）和一个MSALK模块。第一个RepBlock负责下采样。通道数逐阶段增加。
解码器：对应编码器，也包含四个阶段，每个阶段由一个轻量级残差解码块（Lightweight Residual Decoding Block, LRDB）和一个MSALK模块构成。LRDB旨在降低网络复杂度的同时防止性能退化。
跳跃连接：在连接编码器和解码器对应层的特征图时，引入了FSPA模块，而非简单的拼接，以增强特征融合质量。

核心模块一：多尺度自适应大核模块（MSALK） MSALK模块旨在解决固定卷积核难以适应多尺度特征的问题，其工作流程分为两步：

* **多尺度特征提取**：该步骤通过串联（而非并联）三种不同类型和大小的深度可分离卷积来提取具有不同感受野的特征。 1. **3x3小卷积**：提取局部细节特征。 2. **级联条带卷积**：使用11x1和1x11的深度卷积级联，模拟大卷积核，以捕获水平和垂直方向的长距离依赖，扩大感受野。 3. **多膨胀率卷积**：在一个称为多尺度上下文感知（Multi-Scale Context-Aware, MSCA）的子模块中，使用膨胀率（dilation rate）分别为1, 2, 3的3x3深度可分离卷积，进一步提取多尺度上下文信息，最大理论感受野可达19x19。 * **两步特征校准策略**：对提取到的多尺度特征进行自适应融合与优化。 1. **空间自适应融合**：利用具有最大感受野的特征图（来自MSCA）作为空间权重，对前两步提取的局部特征和长程特征进行逐元素加权，实现自适应融合。 2. **输入特征引导的通道优化**：将原始输入特征与上一步融合后的两个特征图进行通道重组（Channel Shuffle），然后通过1x1卷积促进跨通道交互，最终输出优化后的特征。此步骤确保了输出特征与输入内容的关联性。

核心模块二：频率-空间并行注意力模块（FSPA） FSPA模块被嵌入跳跃连接中，旨在协同利用频域全局信息和空间细节信息，增强全局上下文建模的同时保留局部精细细节。它采用双分支策略：

* **空间细节增强分支**：使用3x3深度卷积捕获空间细节信息，随后通过两个带GELU激活的1x1卷积进行增强。 * **频率通道注意力分支**：基于频率通道注意力（Frequency Channel Attention, FCA）机制。首先将输入特征图在通道维度上分组，对每组特征应用二维离散余弦变换（2D Discrete Cosine Transform, DCT）压缩到频域，选择不同频率分量进行拼接，然后通过全连接层学习通道权重，最后将得到的注意力图与原始特征相乘，实现基于频域信息的通道重加权。 * **双分支融合**：将上述两个分支的输出通过逐元素相加进行融合，得到同时富含空间细节和频域全局信息的增强特征。

2. 实验验证与数据处理

研究使用了三个具有挑战性的公开医学图像分割数据集来验证FE-MAANET的有效性和泛化能力：

* **Synapse多器官数据集**：包含30例腹部CT扫描（3779张图像），分割8个腹部器官（主动脉、胆囊、左右肾、肝脏、胰腺、脾脏、胃）。按24例训练、6例测试划分。 * **ACDC心脏多结构数据集**：包含100例心脏MRI扫描，分割左心室、右心室和心肌。按70例训练、10例验证、20例测试划分。 * **AVT主动脉血管树数据集**：包含56例CT血管造影（CTA）扫描，用于主动脉血管树分割。按38例训练、18例测试划分。

所有实验在单张NVIDIA RTX 4090 GPU上进行。输入图像统一调整为224x224像素，并采用随机旋转和翻转进行数据增强。网络使用AdamW优化器，结合Dice损失和交叉熵损失进行训练。评估指标采用Dice相似系数（DSC，衡量重叠度）和95%豪斯多夫距离（HD，衡量边界精度）。

3. 对比实验与消融研究设计

对比实验：将FE-MAANET与众多先进的医学图像分割模型进行对比，包括经典CNN模型（如U-Net, U-Net++, Attention U-Net）、Transformer模型（如TransUNet, Swin UNet, DAE-Former）以及一些最新的混合模型。对比内容涵盖分割精度（DSC, HD）和模型复杂度（参数量、计算量FLOPs）。
消融研究：为了验证所提模块的有效性，进行了三组消融实验：
1. 组件消融：分别移除MSALK和FSPA模块，观察模型性能变化。
2. MSALK内核消融：研究MSCA子模块中不同膨胀率组合，以及使用方形大卷积核与级联条带卷积模拟大核的效果差异。
3. FSPA分支消融：分别仅使用SDE分支或FCA分支，评估双分支协作的必要性。

三、主要研究结果

1. 在Synapse数据集上的结果： FE-MAANET取得了最佳的平均DSC（83.66%）和平均HD（13.39 mm）。在多个器官（胆囊、肝脏、主动脉、胰腺）的分割上获得了最高的DSC，在左右肾的分割上获得次优DSC。与表现次优的DAE-Former模型相比，DSC提升了1.03%，HD降低了3.00 mm，同时参数量仅为DAE-Former的42.25%（20.31M vs 48.07M）。定性结果（可视化分割图）显示，FE-MAANET在器官边界处（如肝脏、胰腺）产生了更连续、自然的分割结果，对于小器官（如胰腺、胆囊）的过分割和欠分割问题更少。

2. 在ACDC数据集上的结果： FE-MAANET取得了91.73%的平均DSC，其中在左心室分割任务上达到了最高的96.78% DSC，在右心室分割上取得次优结果。这表明模型在心脏结构分割任务上同样表现优异。

3. 在AVT数据集上的结果： FE-MAANET在所有测试中心数据上取得了最优或接近最优的性能，平均DSC为86.25%，平均HD为6.05 mm，均优于对比方法。3D血管树可视化结果表明，FE-MAANET在捕获血管分支细节和整体结构连贯性方面表现更好。

4. 模型复杂度与效率分析：与一些代表性的3D分割模型（如UNETR, nnUNet）相比，作为2D模型的FE-MAANet在参数量（20.31M）和计算量（38.32 GFLOPs）上显著更低，同时在Synapse和ACDC数据集上保持了具有竞争力的分割精度（DSC分别为83.66%和91.73%），实现了性能与效率的良好平衡。

5. 消融研究结果： * 组件消融：同时使用MSALK和FSPA时，模型性能最佳（DSC 83.66%）。仅使用MSALK能使DSC提升1.65%，而仅使用FSPA会导致性能略有下降，证明了MSALK提供的自适应多尺度特征是FSPA有效工作的基础，两者协同作用显著提升了模型性能。 * MSALK内核消融：在MSCA中使用膨胀率[1,2,3]组合效果最佳；使用级联条带卷积（11x1 + 1x11）模拟大核比使用方形大卷积核（如11x11）平均DSC提升0.68%，尤其在胰腺分割上提升显著（2.31%），验证了所设计的多尺度提取策略的有效性。 * FSPA分支消融：单独使用SDE或FCA分支均导致性能显著下降，其中仅使用FCA时DSC下降2.51%，强调了双分支并行协作对于同时建模空间细节和频域全局信息的重要性。

这些结果逻辑连贯：首先，通过在三类数据集上的优异表现，证明了FE-MAANET的强泛化能力；其次，通过与SOTA模型的对比，确立了其先进性；最后，通过系统的消融实验，将整体性能的提升归因于MSALK和FSPA两个核心模块的有效设计，并细化了每个模块中关键设计选择（如膨胀率、卷积类型）的最佳配置，为结论提供了坚实的数据支撑。

四、研究结论与价值

本研究成功提出并验证了FE-MAANET，一种用于复杂医学图像分割任务的新型网络架构。其主要贡献在于：1）设计了MSALK模块，通过串联不同类型/尺寸的卷积与两步校准策略，自适应地学习并融合多尺度特征；2）设计了FSPA模块，通过空间与频域双分支并行注意力，协同增强局部细节与全局上下文建模。

研究的科学价值在于：针对现有CNN模型在医学图像分割中面临的自适应多尺度特征捕获和全局上下文建模两大挑战，提出了创新性的模块化解决方案。MSALK模块提供了一种灵活且高效的多尺度特征提取与融合范式，FSPA模块则为结合空间域与变换域（频域）信息提供了新思路。

应用价值显著：FE-MAANET在腹部多器官、心脏结构和主动脉血管树等多种分割任务上均实现了优异的精度，且模型参数量相对较少，显示出良好的临床应用潜力。特别是对于小器官（如胰腺）和复杂边界的分割改进，有助于提升计算机辅助诊断系统的可靠性和实用性。

五、研究亮点

创新性的模块设计：MSALK模块的创新在于“串联式多尺度提取”与“两步自适应校准”的结合，突破了传统固定核或简单并联多核方法的局限。FSPA模块的创新在于将频域注意力与空间细节增强以并行方式进行协同，而非简单地分离高低频信息。
优异的性能-效率权衡：在没有使用任何预训练权重的情况下，FE-MAANET在多个数据集上超越了包括大量Transformer模型在内的先进方法，同时保持了相对较低的参数量和计算复杂度。
系统全面的验证：研究不仅在三个不同模态、不同解剖结构的公开数据集上验证了模型的泛化能力，还通过详尽的消融实验深入剖析了各个组件及内部参数的作用，增强了研究的可信度和可复现性。
对难点问题的针对性改进：实验结果表明，模型在传统分割难点（如小尺寸胰腺、复杂血管分支）上表现出了明显的性能提升，直接回应了领域内的关键挑战。

六、其他有价值内容

论文还提供了丰富的可视化对比结果（图5、6、7），直观展示了FE-MAANET在分割边界连贯性、小器官完整性等方面优于其他方法。此外，作者对模型在复杂场景下可能存在的轻微欠分割/过分割问题进行了坦诚讨论，并指出了未来可通过更好地平衡细节保持与感受野扩大来进一步改进的方向，体现了研究的严谨性和前瞻性。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问