基于双编码器特征融合与CARAFE上采样的DEC-UNet医学图像分割方法

分享自：
基于双编码器特征融合与CARAFE上采样的DEC-UNet医学图像分割方法

期刊:Computers in Biology and MedicineDOI:10.1016/j.compbiomed.2026.111802
基于DEC-UNET的医学图像分割新方法：融合双编码器特征与自适应上采样的研究
一、 研究团队与发表信息
本项研究由安徽理工大学电气与信息工程学院的黄阳阳、陈静（通讯作者）、王旭波和王家风，以及英国利物浦大学电气工程与电子学系的陈静共同完成。研究成果以题为《DEC-UNET: A Dual-Encoder Feature Fusion and CARAFE Upsampling UNET for Medical Image Segmentation》的论文形式，发表于期刊《Computers in Biology and Medicine》第213卷（2026年），文章编号111802，于2026年6月6日在线发表。
二、 学术背景与研究目标
1. 科学领域： 本研究属于医学图像处理与计算机辅助诊断领域，具体聚焦于医学图像分割技术。医学图像分割旨在从复杂的医学影像（如CT、MRI、内窥镜图像）中精确分割出目标解剖结构或病灶区域，为疾病诊断和手术规划提供关键支持。
2. 研究动机与背景知识： 当前，针对形态复杂、边界不规则的病灶区域进行精确分割仍是重大挑战。传统的基于卷积神经网络（CNN）的模型（如U-Net及其变体）在捕捉全局特征方面能力有限，容易导致分割结果不完整。而基于Transformer的模型虽然在建模长程依赖关系上表现出色，但在提取局部细节（如边缘、纹理）方面存在不足，易丢失边界信息。近年来，一些研究尝试结合CNN和Transformer构建双编码器架构，以同时获取局部和全局特征。然而，现有双编码器模型（如TransFuse、UCTransNet等）多采用简单的特征拼接或逐元素相加进行融合，主要关注特征间的相似性而忽略了差异性，难以充分保留每个编码器的判别性信息，影响分割精度。此外，解码器中的传统上采样方法（如双线性插值、转置卷积）存在平滑效应，容易导致图像边缘特征丢失。
3. 研究目标： 针对上述问题，本研究旨在提出一种新型的医学图像分割模型——DEC-UNET（双编码器特征融合与CARAFE上采样UNET）。该模型的核心目标是：通过设计一个能够协同提取局部与全局特征的双编码器架构，并引入有效的特征融合机制和自适应上采样方法，来提升对具有复杂形态和不规则边界的医学图像的分割精度。
三、 研究方法与详细流程
本研究提出了一种全新的DEC-UNET模型架构，其工作流程主要包括以下几个部分：双编码器特征提取、特征融合、瓶颈层处理以及解码器上采样与重建。
1. 模型总体架构： DEC-UNET模型由三部分组成：一个双编码器、一个瓶颈层和一个解码器。 * 双编码器： 输入图像（空间分辨率H×W×C）被并行送入两个编码器分支。 * C-FEM编码器： 基于交叉特征提取模块（Cross-Feature Extraction Module, C-FEM），专注于提取图像的局部特征（如纹理、边缘）。 * RCW-Transformer编码器： 基于残差十字窗口Transformer（Residual Cross-shaped Window Transformer, RCW-Transformer），专注于提取图像的全局特征（如整体形态、空间位置）。 * 特征融合模块（DCA）： 在每个编码器层级，C-FEM和RCW-Transformer提取的特征通过一个新颖的双分支交叉注意力（Dual-branch Cross Attention, DCA）模块进行融合。DCA通过交叉计算局部特征与全局特征之间的注意力权重，学习它们的相似性和差异性，从而有效保留来自每个编码器的判别性信息。 * 跳跃连接： 融合后的特征通过跳跃连接传递到对应的解码器层级。 * 瓶颈层： 使用C-FEM和RCW-Transformer提取更深层的特征表示，并通过DCA进一步融合，增强模型捕获全局特征的能力。 * 解码器： 瓶颈层的特征图首先通过线性扩展CARAFE（Content-Aware Reassembly of FEatures）进行上采样（空间分辨率加倍，通道数减半）。上采样后的特征经过RCW-Transformer细化，并与来自双编码器的对应层级特征进行融合。最后，通过线性投影调整特征图的通道维度，完成分割预测。
2. 核心模块详解： * C-FEM编码器模块： 该模块旨在解决病灶区域边界不规则导致的局部特征提取能力有限的问题。它主要由循环选择性扫描2D模块（LSS2D）和残差视觉状态空间模块（R-VSS）构成。C-FEM将输入特征图沿通道和空间维度分割，并嵌入到两个并行分支（通道分支和空间分支）中，分别使用R-VSS提取特征，然后通过交叉融合策略和扩张卷积（Dilated Convolution）整合，最终输出富含通道和空间维度局部细节的特征图。其创新在于通过序列化扫描和残差连接，增强了模型对图像局部纹理和边界的捕获能力，但主要聚焦于局部特征。 * RCW-Transformer编码器模块： 该模块旨在解决病灶形态复杂导致的全局特征提取能力有限的问题。其核心是十字窗口自注意力（Cross-shaped Window Self-Attention）机制。该机制将特征图划分为水平和垂直的条带窗口，分别在窗口内计算自注意力权重，从而在降低计算复杂度的同时建立长程依赖关系。模块采用四阶段设计，在浅层使用较小的窗口以关注局部细节，在深层使用较大的窗口以捕获全局结构，实现了从局部到全局的平滑特征过渡。结合层归一化（Layer Normalization）、多层感知机（MLP）和残差连接，该模块能有效提取图像的全局形态和空间位置信息。 * 双分支交叉注意力（DCA）融合模块： 为了解决传统融合方法（如拼接、相加）忽略特征差异性的问题，本研究提出了DCA模块。DCA包含两个平行的注意力分支（分别对应C-FEM和RCW-Transformer分支）。每个分支将输入特征图通过1×1卷积扩展通道数，然后进行十字窗口划分和重塑，生成查询（Q）、键（K）、值（V）矩阵。关键步骤是，一个分支的Q与另一个分支的K^T进行点乘并经过Softmax得到注意力权重矩阵Y，再将Y与该分支的V相乘，得到注意力加权的特征图。最后，两个分支的加权特征图进行拼接，并通过扩张卷积和1×1卷积融合，生成最终的融合特征图。这种方式显式地建模了局部与全局特征之间的交互关系。 * CARAFE上采样模块： 在解码器中，采用内容感知特征重组上采样器（CARAFE）替代传统的转置卷积或插值方法。CARAFE包含核预测模块和特征重组模块。核预测模块根据输入特征图的内容，动态预测每个位置上采样所用的重组核（本研究采用5×5核）。特征重组模块则利用这些内容感知的核，对输入特征图的局部邻域特征进行加权重组，生成上采样后的特征图。这种自适应机制能更好地保留边缘信息，减少因平滑效应导致的边界特征丢失。
3. 实验设置与数据处理： * 数据集： 研究在三个公开医学图像分割数据集上进行了实验验证： 1. Kvasir-SEG数据集： 包含1000张结直肠息肉图像及标注，按8:2划分为训练集（800）和验证集（200）。 2. ACDC数据集： 心脏MRI数据集，用于分割左心室、右心室和心肌，包含100个训练病例和50个验证病例。 3. Synapse数据集： 多器官腹部CT分割数据集，包含8个器官，有18个训练病例和12个验证病例。 * 数据预处理： 对所有图像应用了随机数据增强（亮度调整、对比度增强、平移、旋转、仿射变换、翻转、HSV色彩空间增强、剪切变换），并将输入图像尺寸统一调整为256×256像素。 * 评估指标： 采用戴斯相似系数（Dice Similarity Coefficient, DSC）和豪斯多夫距离（Hausdorff Distance, HD）作为主要分割精度评价指标。同时，使用参数量（Params）、浮点运算次数（FLOPs）、每秒帧数（FPS）和GPU内存消耗（M_GPU）评估模型复杂度与效率。 * 实现细节： 使用PyTorch 2.3.1框架，Python 3.12.3，CUDA 11.8，在NVIDIA A100 GPU上进行实验。采用Adam优化器，初始学习率1e-3，最大训练轮数150，批量大小为8。所有对比模型均在相同设置下训练以确保公平性。 * 损失函数： 采用二元交叉熵损失（Binary Cross-Entropy Loss）和Dice损失（Dice Loss）的加权和作为混合损失函数（L_total），以解决医学图像中正负样本不平衡的问题。通过消融实验确定最佳权重系数δ为0.5。
四、 主要研究结果
1. 消融实验结果： * 损失函数权重： 实验确定了混合损失函数中二元交叉熵损失和Dice损失的最佳权重δ为0.5，此时模型在三个数据集上均取得最高的DSC和最低的HD。 * RCW-Transformer块数量： 通过调整编码器第三阶段RCW-Transformer块的数量，发现设置为（1, 2, 9, 1）时模型性能最优，在三个数据集上均达到最佳分割精度。 * 模块有效性验证： 逐步引入C-FEM、RCW-Transformer、DCA和CARAFE模块的消融实验表明，每个模块都对性能提升有贡献。完整的DEC-UNET（包含所有模块）在Kvasir-SEG、ACDC和Synapse数据集上，相比基线U-Net，DSC分别提升了14.75%、13.97%和13.44%，HD分别降低了48.81%、51.98%和58.87%。这证明了双编码器架构、DCA特征融合和CARAFE上采样协同工作的有效性。 * DCA融合效果可视化： 特征图可视化对比显示，与传统的直接拼接（Concatenation）方法相比，DCA融合后的特征图边界更清晰，结构信息更完整，与真实标注（GT）的差异更小，证明了DCA能更有效地融合局部与全局特征。 * CARAFE模块分析： 在Synapse多器官分割任务中，引入CARAFE使平均DSC从91.12%提升至93.83%，平均HD从7.67 mm降低至6.64 mm。特别是对于形状复杂、边界不规则的器官（如胆囊、胰腺、胃），DSC提升显著（5.84%-7.32%），HD下降明显（15.62%-22.20%）。虽然CARAFE引入了额外的GPU内存消耗（从17.31 GB增至18.63 GB），但其带来的精度提升被认为是可接受的。
2. 对比实验结果： DEC-UNET与多种先进模型进行了对比，包括基于CNN的模型（U-Net, Attention U-Net, Res U-Net）、基于Transformer的模型（Swin-Unet, TransDeepLab）以及CNN-Transformer混合模型（TransUNet, UCTransNet, TransBTS）。 * 定量分析： * Kvasir-SEG数据集： DEC-UNET取得了最高的DSC（89.38%）和最低的HD（9.43 mm）。相比CNN-based模型，DSC提升10.70%-14.75%，HD降低40.91%-48.81%；相比Transformer-based模型，DSC提升8.02%-9.43%，HD降低29.01%-37.30%；相比CNN-Transformer混合模型，DSC提升4.19%-9.90%，HD降低14.89%-39.63%。 * ACDC数据集： DEC-UNET取得了最高的DSC（91.24%）和最低的HD（8.13 mm）。相比其他三类模型，DSC和HD均有显著优势。 * Synapse数据集： DEC-UNET同样取得了最高的DSC（93.83%）和最低的HD（6.64 mm），在所有对比模型中表现最佳。 * 定性分析（可视化）： 在三个数据集上的分割结果可视化显示，对于形状复杂、边界不规则的区域（如结肠息肉、心脏结构、腹部多器官），对比模型容易出现错误分割、边界模糊或细节丢失。而DEC-UNET的分割结果与真实标注（GT）最为接近，能更完整地分割目标区域，并更好地保留边界细节。 * 复杂度分析： DEC-UNET的参数量（74.86M）低于TransUNet但高于其他模型，计算量（FLOPs, 94.52G）最高，推理速度（FPS, 62.41 frames/s）最低。这归因于其双编码器架构、DCA融合和CARAFE上采样带来的额外计算开销，以及RCW-Transformer中多阶段渐进式特征提取的设计。尽管如此，其在三个数据集上均取得了最高的分割精度，表明增加的模型复杂度和计算成本换来了显著的性能提升。
五、 研究结论与价值
1. 结论： 本研究成功提出并验证了DEC-UNET模型。该模型通过集成C-FEM和RCW-Transformer的双编码器架构，能够同时有效地提取医学图像的局部细节和全局结构特征。创新的DCA模块通过学习特征间的相似性与差异性，实现了两种特征的有效融合，保留了各自的判别性信息。在解码器中采用CARAFE进行自适应上采样，减少了边缘特征的损失。在三个公开数据集上的综合实验表明，DEC-UNET在分割精度上超越了现有的CNN-based、Transformer-based和CNN-Transformer混合模型，证明了其在处理具有复杂形态和不规则边界的医学图像分割任务上的优越性、泛化能力和鲁棒性。
2. 科学价值与应用价值： * 科学价值： * 架构创新： 提出了一种有效的双编码器协同工作范式，为同时利用CNN的局部感知能力和Transformer的全局建模能力提供了新思路。 * 融合机制创新： 提出的DCA特征融合模块，通过交叉注意力机制显式建模局部与全局特征的交互，超越了简单的特征拼接或相加，为多源特征融合提供了新方法。 * 技术集成： 将内容感知上采样（CARAFE）引入医学图像分割解码器，验证了其在减少边界信息损失方面的有效性。 * 应用价值： DEC-UNET的高精度分割能力可潜在应用于临床辅助诊断系统，如结直肠息肉检测、心脏结构定量分析、腹部多器官分割等，有助于提高诊断效率和一致性，减少医生手动标注的工作负担和主观差异。
六、 研究亮点
创新的双编码器架构： 首次将专门设计的C-FEM（专注于局部纹理/边界）与RCW-Transformer（专注于全局形态/位置）结合，形成优势互补的双编码器，针对性解决了医学图像分割中局部细节与全局结构难以兼顾的难题。
高效的特征融合机制： 提出了DCA模块，利用交叉注意力计算局部与全局特征间的权重，不仅关注特征相似性，也建模其差异性，从而更智能、更充分地融合双路特征，保留了更多判别信息。
自适应上采样的应用： 在医学图像分割解码器中引入CARAFE，通过内容感知的动态核预测进行特征重组，有效缓解了传统上采样方法导致的边界平滑效应，提升了分割边界的准确性。
全面的实验验证： 在三个不同模态（内窥镜、MRI、CT）和不同任务（息肉、心脏、多器官）的公开数据集上进行了系统性的消融实验和对比实验，充分证明了模型的有效性、泛化性和鲁棒性。实验设计严谨，包括定量指标、定性可视化以及模型复杂度分析。
七、 其他有价值内容与未来展望
论文在讨论部分也指出了当前工作的局限性并展望了未来方向： * 局限性： DCA模块在融合特征时未显式考虑医学图像的空间先验信息（如解剖结构位置），在复杂多器官分割任务中可能导致特征空间对齐偏差。CARAFE使用了固定的上采样核（5×5），可能对不同形状和尺度的器官/病灶不是最优的。此外，模型在参数量、计算复杂度和推理速度上仍有优化空间。 * 未来工作： 1. 在DCA中引入空间感知机制（如解剖先验引导的注意力、坐标感知注意力等），以在特征融合时更好地保持解剖结构的空间一致性。 2. 探索自适应的上采样核选择策略，以进一步提升对不同形状和尺度目标的特征重建性能。 3. 优化模型结构，降低计算复杂度，提升推理效率。 4. 将DEC-UNET扩展到更具挑战性的应用场景，如3D医学图像分割、多模态医学图像分割，并进行多中心临床验证，以进一步评估其泛化能力和临床适用性。
本研究提出的DEC-UNET模型通过一系列创新设计，显著提升了复杂医学图像的分割精度，为相关领域的研究提供了有价值的参考和技术路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问