基于多头动态特征聚合模块的医学图像分割方法

分享自：
基于多头动态特征聚合模块的医学图像分割方法

计算机科学
人工智能
信息科学
生物医学工程
医学
期刊:IET Image ProcessingDOI:10.1049/ipr2.70274
【点击此处】阅读全文、收藏及针对性提问
本文是一篇发表于 IET Image Processing 期刊的原创性研究论文。研究团队来自广东药科大学医学信息工程学院，主要作者为 Zijian Chen, Jiangwei Qin, Zhaohan Cai 以及通讯作者 Zhanpeng Huang。该论文于2024年10月16日提交，经过修订后，于2025年12月23日被接受，并于2026年发表。
一、 学术背景
本研究属于医学图像分割领域，这是计算机辅助临床诊断中的一项关键技术，旨在精确识别和勾画器官、组织及病灶区域。其对于提升诊断准确性、优化手术规划、辅助放疗及预后评估具有重要意义。然而，医学图像分割面临诸多挑战，如图像质量多变、解剖结构复杂多样等。
目前，以U-Net为代表的卷积神经网络（Convolutional Neural Networks, CNNs）因其强大的局部特征提取能力，已成为该领域的基石。然而，CNN固有的局部感受野特性限制了其捕获图像中长距离依赖关系的能力，这在处理具有复杂全局上下文信息的医学图像时是一个显著缺陷。另一方面，视觉变换器（Vision Transformers, ViTs）通过自注意力机制（Self-Attention）能够有效建模全局上下文，取得了显著成功，但其计算复杂度随图像分辨率呈二次方增长，且在处理高分辨率图像时计算开销巨大。
现有的一些研究尝试将CNN与Transformer结合，以取长补短。然而，这些混合模型往往存在以下问题：1) 简单堆叠CNN和Transformer模块未能实现两者的有效协同；2) 引入Transformer模块导致模型参数量和计算量显著增加；3) 在平衡全局上下文信息与局部空间细节方面仍有不足。
基于此背景，本研究旨在解决以下核心挑战：如何以低参数量和计算复杂度为代价，巧妙地融合CNN与Transformer，使其协同工作，既能增强局部特征和细节的捕获，又能有效融合多尺度特征，从而实现高精度的医学图像分割。为此，研究者提出了一种名为多头动态聚合变换器网络（Multi-head Dynamic Aggregation Transformer Network, MDAT-Net）的新型架构。
二、 详细研究流程
本研究提出了一种全新的医学图像分割网络MDAT-Net。其核心是将一个名为MDAT（Multi-head Dynamic Aggregation Transformer）的新型骨干网络嵌入到经典的U-Net编码器-解码器架构中。整个研究流程围绕MDAT骨干网络的设计、构建、验证以及最终的集成应用展开。
1. 核心模块设计与开发 研究首先提出了两个新颖的基础模块：多头通道混合卷积模块（Multi-Head Channel Mixed Convolution, MHCMC）和动态特征聚合模块（Dynamic Feature Aggregation, DFA）。
MHCMC模块：该模块旨在增强多尺度特征提取能力，同时控制参数量。其工作流程如下：
输入分割：将输入特征图在通道维度上均匀分割为四个独立的“头”（Head）。
并行多尺度卷积：每个头使用不同尺寸的深度可分离卷积（Depthwise Separable Convolution）核进行处理，卷积核尺寸分别为3×3、5×5、7×7和9×9。这种设计能够并行捕获不同空间尺度的特征，并有效扩大感受野。使用深度可分离卷积是为了显著减少参数和计算量。
通道注意力：对每个头卷积后的特征，应用通道注意力机制（Channel Attention），以增强重要特征通道并抑制不重要的通道。
特征融合：每个头经过一个1×1卷积层进行通道信息整合，然后将四个头的输出特征在通道维度上进行拼接（Concatenation）。
DFA模块：该模块旨在自适应地融合MHCMC提取的多头多尺度特征。其工作流程如下：
全局描述符生成：对MHCMC模块输出的特征图，分别进行全局平均池化（Average Pooling, AVP）和全局最大池化（Max Pooling, MAP），得到两个全局空间描述符。
动态权重生成：将两个全局描述符拼接后，通过一个1×1卷积层和Sigmoid激活函数，生成四个动态选择权重值（w1, w2, w3, w4）。这些权重值基于全局上下文信息，自适应地为MHCMC的四个头分配重要性。
加权融合：将生成的动态权重分别与MHCMC四个头经过通道注意力后的特征进行逐元素相乘（加权），然后将加权后的特征拼接，最后通过一个1×1卷积层完成特征的动态融合。
MHDFA模块构建：将MHCMC与DFA模块融合，构建成核心的多头动态特征聚合模块（MHDFA）。具体流程为：输入特征经过一个线性层变换后送入MHCMC-DFA流程，得到调制特征图M；同时，原始输入特征经过另一个线性层得到值特征V；最终输出Z = M ⊗ V（逐元素相乘）并与原始输入进行残差连接。这种设计实现了对空间和通道特征的高效调制。
2. 进化混合网络架构设计 为了模拟从局部依赖到全局依赖的渐进式捕获过程，研究者提出了进化混合网络（Evolutionary Hybrid Network, EHN）作为编码器。EHN并非简单堆叠，而是有策略地安排不同模块： * 阶段一 & 二（高分辨率/浅层）：仅使用MHDFA模块。在此阶段，图像分辨率较高，使用基于CNN的MHDFA模块可以高效地提取局部细节和丰富的多尺度特征，同时避免Transformer在早期高分辨率阶段带来的巨大计算开销。 * 阶段三（过渡层）：顺序堆叠MHDFA模块和多头自注意力（Multi-Head Self-Attention, MSA）模块。这一设计是关键创新，旨在实现从局部特征建模到全局依赖建模的平滑过渡。网络先通过MHDFA强化局部特征，再通过MSA建立这些局部特征之间的长程关联。 * 阶段四（低分辨率/深层）：仅使用MSA模块。在特征图尺寸已经缩小的深层，使用Transformer模块可以专注于捕获深层次的全局上下文信息，计算成本可控。
这四个阶段构成了完整的MDAT骨干网络。每个阶段后都会进行下采样，逐步降低空间分辨率并增加通道数。
3. 完整网络集成与训练 将上述MDAT骨干网络作为编码器，与一个对称的解码器结合，构建出最终的MDAT-Net。解码器由多个上采样块组成，每个块包含2倍上采样操作、3×3卷积层和ReLU激活层，并通过跳跃连接（Skip Connections）融合编码器对应层级的特征，以恢复空间细节并生成最终的分割图。
4. 实验验证与分析 研究在三个公开的医学图像分割数据集上进行了全面的实验，以验证MDAT-Net的有效性。 * 数据集： * CVC-ClinicDB：结肠镜息肉分割数据集，共612张图像，使用600张训练，12张测试。 * LiTS2017：肝脏肿瘤分割挑战赛数据集（CT图像），预处理后得到665张图像，使用600张训练，65张测试。 * ACDC：自动心脏诊断挑战赛数据集（心脏MRI图像），包含左心室、右心室和心肌的标注，使用800个轴向切片训练，150个测试。 * 实验设置：所有图像统一缩放至224×224像素，采用随机旋转和翻转进行数据增强。损失函数为二元交叉熵损失和Dice损失的结合。使用SGD优化器，学习率为0.01，批大小为6，训练150个周期。实验在单块NVIDIA GeForce GTX 1080 GPU上进行。 * 评估指标：采用Dice系数、豪斯多夫距离95%（HD95）、准确率（Accuracy）、特异性（Specificity）、交并比（IoU）和召回率（Recall）等多个指标进行综合评估。 * 对比方法：与U-Net、Att-UNet、TransUNet、UTNet、TransCascade、TransNetR、MSHV-Net等先进的CNN、Transformer及混合模型进行了对比。 * 消融实验：为了验证各个提出组件的有效性，进行了系统的消融研究，包括： * 不同混合堆叠策略：比较了纯CNN、纯Transformer、交替堆叠、先Transformer后CNN以及本文提出的先CNN后Transformer并加入过渡层（EHN）等多种策略。 * 组件分析：逐步向基线模型（单头卷积+MSA）中添加MHCMC模块、DFA模块和EHN结构，观察各组件对性能的贡献。
三、 主要研究结果
1. 整体性能对比结果 MDAT-Net在三个数据集上均表现出色，在核心指标Dice系数上 consistently outperforms 其他对比方法，同时在参数量（Params）和浮点运算次数（FLOPs）上保持了相对较低的水平。 * 在LiTS2017（肝脏肿瘤分割）任务上：MDAT-Net取得了最高的平均Dice系数（0.5133）和最低的HD95距离（5.2046），在所有评估指标上均领先，尤其在肝脏分割的Dice系数上达到0.9393，显著优于其他模型。可视化结果也显示，MDAT-Net在边界细节和小目标（如小肿瘤）的分割上更具优势。 * 在CVC-ClinicDB（息肉分割）任务上：MDAT-Net获得了最高的Dice系数（0.9375）、IoU（0.8825）和特异性（0.9966）。尽管在召回率和HD95上略逊于个别模型，但其在保持高分割精度的同时，计算成本远低于TransUNet等模型。 * 在ACDC（心脏分割）任务上：MDAT-Net取得了最高的平均Dice系数（0.8958）和准确率（0.9978），并且在右心室、心肌和左心室的分割Dice系数上均达到或接近最优水平，证明了其在不同器官分割任务上的鲁棒性。
这些结果直接支持了研究的核心结论：MDAT-Net能够有效融合CNN和Transformer的优势，在多个医学图像分割任务上实现高精度，且模型效率较高。
2. 消融实验结果 * 混合堆叠策略：实验表明，本文提出的“CNN×2 + 过渡层(EHN) + Transformer”策略在参数量（187.17M）和FLOPs（19.17G）相对较低的情况下，在三个数据集上取得了最佳的Dice分数（CVC: 93.75%， LiTS: 51.33%， ACDC: 89.56%）。这验证了在浅层使用CNN提取局部特征、在深层使用Transformer捕获全局依赖、并在中间层设置过渡结构的有效性。 * 组件分析： * 在基线模型上加入MHCMC模块后，三个数据集的Dice分数分别提升了0.49%、0.61%和0.61%，证明了多尺度深度可分离卷积结合通道注意力能有效提升特征提取能力。 * 进一步加入DFA模块后，Dice分数继续提升（分别+0.65%， +0.87%， +0.94%），说明动态特征聚合机制能有效整合多尺度信息。 * 最终加入EHN结构（即完整的MDAT-Net）后，性能达到顶峰（总提升分别为+1.16%， +1.14%， +1.44%），这证实了渐进式从局部到全局的架构设计对于性能提升至关重要。
消融实验的结果清晰地揭示了每个提出模块（MHCMC, DFA, EHN）的独立贡献以及它们组合后的协同效应，为模型设计的合理性提供了强有力的数据支持，并逻辑性地导向了最终的模型架构和性能结论。
四、 研究结论与价值
本研究成功提出并验证了MDAT-Net，一种用于医学图像分割的新型高效混合网络。其核心贡献在于设计了一种新颖的骨干网络MDAT，该网络通过MHCMC模块实现高效的多尺度局部特征提取，通过DFA模块实现上下文感知的动态特征融合，并通过EHN架构巧妙地安排了从局部卷积到全局注意力机制的渐进式过渡。
科学价值：本研究为CNN与Transformer的融合提供了一种新的、具有原则性的设计范式。它不仅仅是将两种模块简单拼接，而是通过精心设计的MHDFA模块实现特征层面的深度融合，并通过EHN模拟了网络层次化特征提取的自然进化过程（从局部到全局）。这种设计在理论上更贴合视觉信息处理的层次性，为后续的混合架构研究提供了新思路。
应用价值：MDAT-Net在肝脏肿瘤、结肠息肉和心脏结构等多个具有挑战性的医学图像分割任务上取得了领先或具有竞争力的性能，且模型复杂度相对可控。这表明该模型具有较好的泛化能力和临床应用潜力，能够为计算机辅助诊断系统提供更精确、更可靠的自动化分割工具，有望辅助医生提升诊断效率和准确性。
五、 研究亮点
新颖的模块设计：提出了MHCMC和DFA两个创新模块。MHCMC通过多尺寸深度可分离卷积与通道注意力的结合，以较低成本实现了强大的多尺度特征提取。DFA则引入了一种基于全局上下文的空间动态选择机制，实现了多头特征的自适应加权融合。
创新的架构设计：提出了进化混合网络（EHN）作为编码器骨干。其“CNN -> (CNN+Transformer) -> Transformer”的渐进式堆叠策略，是一种有理论指导的、高效的混合模式，有效平衡了计算开销与模型性能，模拟了特征抽象层次逐步加深的过程。
卓越的性能表现：在三个公开基准数据集上的实验表明，MDAT-Net在关键指标上超越了多种先进的纯CNN、纯Transformer及混合模型，证明了其设计理念的有效性和优越性。
系统的验证：研究不仅进行了全面的横向对比实验，还通过详尽的消融研究，定量分析了每个提出组件的贡献，以及不同混合策略的影响，使结论非常扎实可靠。
六、 其他有价值的内容
论文在“相关工作”部分对CNN、Vision Transformer以及CNN-Transformer混合网络的发展脉络进行了清晰的梳理，为读者理解本研究的定位和创新点提供了良好的背景。同时，作者在“未来工作”部分指出了当前模型的局限（如在CVC数据集上召回率和HD95指标并非最优）和未来的优化方向，包括进一步降低参数量、优化Transformer结构以更好地捕获长程依赖、提升对小目标的预测能力以及在复杂背景下的检测能力，体现了研究的延续性和开放性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问