ULD-Net：用于三维医学图像分割的U形分支大核深度可分离卷积网络

分享自：
ULD-Net：用于三维医学图像分割的U形分支大核深度可分离卷积网络

影像医学与核医学
生物医学工程
计算机科学
信息科学
医学
期刊:Biomedical Signal Processing and ControlDOI:10.1016/j.bspc.2025.108746
【点击此处】阅读全文、收藏及针对性提问
ULD-Net：一种用于3D医学图像分割的U形分支大核深度卷积体网络
一、 研究概况
本研究由来自重庆邮电大学图像认知重庆市重点实验室的Weisheng Li*、Juntong Ci、Feiyan Li、Guofeng Zeng和Zhaopeng Huang共同完成。研究成果以论文《ULD-Net: A U-Shaped Branch Large Kernel Depthwise Convolution Volume Network for 3D Medical Image Segmentation》的形式，于2025年10月7日在线发表于学术期刊《Biomedical Signal Processing and Control》第112卷，文章识别码为108746。
二、 学术背景
本研究的核心科学领域是医学图像处理，具体聚焦于基于深度学习的3D医学图像（如CT、MRI）多器官自动分割。自动分割技术对于辅助疾病诊断和治疗规划至关重要，但面临诸多挑战：器官形状和位置多变、解剖结构存在个体差异、器官间重叠导致对比度下降等。现有方法，特别是基于视觉变换器（Vision Transformers, ViTs）的模型（如Swin UNETR），虽然因其大感受野（Large Receptive Field）优势取得了最先进的性能，但也存在一些问题。它们缺乏卷积神经网络固有的归纳偏置（Inductive Bias），在分割时容易出现器官边界缺失或器官类型错误的问题。同时，变换器中基于自注意力（Self-Attention）的计算复杂度高，且对大规模数据依赖性强。
研究人员发现，大卷积核深度卷积（Large Kernel Depthwise Convolution）能够模拟变换器的大感受野特性，同时又能利用卷积的归纳偏置，从而有望解决上述问题。因此，本研究的目标是设计一个纯卷积网络架构，旨在以尽可能少的参数实现超越现有变换器模型的3D医学图像分割性能。具体而言，研究旨在通过引入大核深度卷积来模拟Swin变换器块的功能，并通过改进的稀疏MLP（MLP: Multi-Layer Perceptron）模块降低模型复杂度，最终提出一个新颖、高效且高性能的3D医学图像分割网络——ULD-Net。
三、 研究详细流程
本研究主要包含网络设计、实验验证与结果分析三大流程。
流程一：ULD-Net网络架构设计与核心模块创新 本研究的核心是提出ULD-Net网络。它是一个U形编码器-解码器结构。编码器部分完全由新颖设计的卷积模块构成，解码器则沿用Swin UNETR的基于CNN的解码器，并通过跳跃连接（Skip Connection）融合多尺度特征。
研究对象与处理：本研究的设计对象是网络架构本身，不涉及生物样本。研究的关键在于创新性地设计了两个核心模块来替换Swin变换器块中的关键组件。
核心模块一：分支大核深度卷积块（Branch LK Depthwise Convolution Block, BLDc）。此模块旨在替代Swin变换器中的移位窗口多头自注意力机制（Shifted Window Multi-head Self-Attention, SW-MSA）。 设计原理：传统变换器的全局自注意力计算复杂。Swin变换器通过局部窗口自注意力（W-MSA）和移位窗口自注意力（SW-MSA）来获取大感受野，这可以被视为一种大核卷积的变体。研究基于有效感受场理论，指出大核卷积比堆叠多个小卷积更能有效获取大感受野，且优化难度更低。深度卷积（Depthwise Convolution）能大幅减少参数和计算量，而大卷积核又能减少对显存的访问次数，从而提升效率。
实现方法：为了克服固定卷积核尺寸在捕捉远距离器官间细微联系时的局限性，并平衡不同尺度特征的提取，研究者受结构重参数化思想启发，设计了一个分支结构。该结构并行部署了四个不同核尺寸（9×9×9， 7×7×7， 5×5×5， 3×3×3）的深度卷积层。在训练阶段，这些分支独立学习；在推理阶段，可通过结构重参数化技术将多分支结构等价转换为单路结构，从而在不增加推理开销的情况下，让模型能够自适应地融合不同尺度的感受野信息，更全面地捕捉器官的局部细节和全局上下文关系。
核心模块二：3D ULD稀疏MLP（3D ULD Sparse MLP, UMLP）。此模块旨在替代Swin变换器块中的标准MLP层。 设计原理：标准MLP用于特征缩放，但参数量和计算复杂度高。研究者借鉴了用于2D图像识别的稀疏MLP（SMLP）思想，将其改进并应用于3D网络。
实现方法：UMLP包含四个分支：三个分支分别负责在高度（H）、宽度（W）和深度（D）三个维度上混合信息，第四个分支是恒等映射（Identity Mapping）。具体而言，输入特征张量被分别重塑，并在不同维度上应用线性层进行信息混合。最后，四个分支的输出被拼接并通过一个全连接层融合。这种设计通过稀疏连接和权重共享，显著降低了计算复杂度，同时保持了强大的特征变换能力。
微观设计改进： 补丁特征输入：使用一个7×7×7的大核卷积层来提取补丁级特征并输入编码器，取代了变换器中将图像块展平并通过线性层投影的方法。
层归一化：使用层归一化（Layer Normalization, LN）替代卷积网络中常用的批量归一化（Batch Normalization, BN），并对网络结构进行了微调以适应LN。
激活函数：使用高斯误差线性单元（Gaussian Error Linear Unit, GELU）替代修正线性单元（Rectified Linear Unit, ReLU），因其具有更平滑的非线性特性。
流程二：实验设置与对比验证 本研究在三个公开的腹部多器官CT数据集上进行了全面的实验验证：BTCV（30个样本）、FLARE 2021（30个样本）和AMOS 2022（300个样本）。数据进行了标准化预处理，包括Z-score归一化、重采样至统一体素间距、裁剪以及动态数据增强（随机空间裁剪、强度偏移、仿射变换等）。
对比实验：将ULD-Net与当前最先进的卷积网络模型（如V-Net， nnU-Net）和变换器模型（如TransBTS， UNETR， Swin UNETR）以及同样使用大核卷积的先进模型（如RepUX-Net， DeformerUx-Net）进行对比。评估指标采用戴斯相似系数（Dice Similarity Coefficient, Dice）和归一化表面戴斯系数（Normalized Surface Dice, NSD）。
消融实验：为了验证每个设计组件的有效性，研究进行了一系列消融实验，包括： 将BLDc替换回W-MSA/SW-MSA。
将深度卷积替换为标准卷积。
测试不同单一核尺寸（9，7，5）的深度卷积。
测试不同的分支组合（如[7,5,3]， [9,7,5]）。
测试不同的分支连接方式（并行 vs. 串联）。
比较不使用MLP、使用传统3D MLP和使用UMLP的效果。
比较特征融合方式（拼接 vs. 相加）。
流程三：数据分析与统计检验 使用Dice和NSD指标定量评估分割精度。为了确定ULD-Net性能提升的统计显著性，研究者对三个测试集中每个病例的平均Dice指数进行了组间方差分析（ANOVA），并基于最小显著差法（Least Significant Difference, LSD）进行了多重比较，计算p值。
四、 主要研究结果
结果一：网络模块消融实验结果（基于AMOS 2022数据集） 消融实验的结果（见表4）清晰地证明了每个设计选择的有效性： 1. 大核深度卷积的有效性：使用BLDc（Dice: 0.915）的模型性能显著优于使用W-MSA/SW-MSA（Dice: 0.898）的模型，验证了大核深度卷积在模拟变换器大感受野自注意力方面的优势，且收敛更快。 2. 深度卷积的优势：使用深度卷积的模型在参数量远低于标准卷积模型（约9.5倍）的情况下，取得了更高的Dice分数（0.915 vs. 0.890），证明了深度卷积在平衡参数效率和性能方面的优越性。 3. 分支结构的重要性：包含多尺寸核（9,7,5,3）的并行分支结构性能最佳（Dice: 0.915），优于任何单一核尺寸的卷积（如核9: 0.890， 核7: 0.893）或其他分支组合（如[9,7,5]: 0.894）。串联分支结构（Dice: 0.908）也逊于并行结构。这表明并行分支能更有效地整合多尺度特征。 4. UMLP的优越性：使用UMLP（Dice: 0.915）的模型性能远超不使用MLP（Dice: 0.887）和使用传统3D MLP（Dice: 0.891）的模型。值得注意的是，UMLP模块参数量仅为传统MLP块的50.64%，却实现了更好的性能。 5. 特征拼接（Concat）优于相加（Plus）：特征拼接操作（Dice: 0.915）比逐元素相加（Dice: 0.909）能保留更丰富的信息，从而获得更好的分割结果。
结果二：在公开数据集上的性能对比结果 ULD-Net在三个数据集上均取得了最优的平均Dice分数（见表1，2，3）： * BTCV数据集：平均Dice为0.887，优于之前最佳的RepUX-Net（0.858）和Swin UNETR（0.825）。 * FLARE 2021数据集：平均Dice为0.806，优于之前最佳的RepUX-Net（0.788）。 * AMOS 2022数据集：平均Dice为0.915，优于之前最佳的RepUX-Net和DeformerUx-Net（均为0.905）。 统计检验显示，在BTCV数据集上ULD-Net的改进具有显著性（p<0.05），在AMOS 2022和FLARE 2021数据集上具有高度显著性（p<0.01）。这从统计学上证实了ULD-Net性能提升并非偶然。
结果三：模型特性分析 1. 平衡卷积与变换器的优势：结果分析指出，基于卷积的模型（如nnU-Net）在分割胆囊、食道、胃等较小或边界模糊的器官时表现更好，因其卷积操作能有效提取固定区域内的特征。而基于变换器的模型（如Swin UNETR）因具有更大的感受野，在分割位置关系明确的器官（如肾上腺、膀胱）时更有优势。ULD-Net通过大核深度卷积同时获得了这两种优势，因此在多数器官分割上都表现优异。 2. 在小规模数据集上的鲁棒性：ULD-Net在数据量相对较小的BTCV和FLARE 2021数据集上对比SOTA模型的提升幅度（6.2%， 8.1%）大于在数据量较大的AMOS 2022数据集上的提升（2.3%），表明其具有更快的收敛速度和对有限数据的更强鲁棒性。 3. 计算效率：尽管ULD-Net的浮点运算次数（FLOPs， 655.22G）高于Swin UNETR（328.65G），但由于大核深度卷积的内存访问优化和深度可分离卷积的轻量化设计，其训练时间与后者相当，使其适用于临床场景。
五、 研究结论与价值
本研究成功提出并验证了ULD-Net，一个用于3D医学图像分割的U形分支大核深度卷积体网络。主要结论如下： 1. 核心贡献：ULD-Net利用大核深度卷积（BLDc）来模拟Swin变换器的大感受野自注意力功能，同时保留了卷积网络的归纳偏置优势。通过分支结构平衡了不同核尺寸卷积的特征表示。此外，改进的3D UMLP模块以更少的参数模拟了变换器的特征缩放功能。 2. 性能验证：在监督训练条件下，ULD-Net在BTCV、FLARE 2021和AMOS 2022三个具有挑战性的公共数据集上，其分割性能（以Dice指数衡量）超越了当前最先进的变换器模型和卷积网络模型。 3. 科学价值：本研究为“卷积神经网络能否替代或部分替代变换器功能”这一前沿问题提供了一个强有力的肯定案例。它证明通过精心设计，纯卷积网络能够整合并超越变换器在医学图像分割中的关键优势（大感受野建模），同时规避其计算复杂、依赖大数据等缺点。 4. 应用价值：ULD-Net为3D医学图像分割任务提供了一个高效、高性能的解决方案。其相对较低的参数量（55.85M）和合理的计算开销，使其具备在临床环境中实际部署的潜力，有助于推动医学图像分析辅助诊断的临床应用。
六、 研究亮点
架构创新：首次提出将分支式大核深度卷积块（BLDc） 系统性地引入3D医学图像分割网络编码器，以替代变换器中的自注意力模块，这是一个新颖且有效的设计。
模块创新：将用于2D的稀疏MLP（SMLP）改进并扩展到3D，提出了3D ULD稀疏MLP（UMLP），在显著降低参数量的同时提升了性能。
性能突破：在多个标准数据集上实现了全面的性能超越，证明了纯卷积网络在3D医学图像分割任务上可以达到并超过当前最先进的混合架构或纯变换器架构。
深入分析：不仅提供了定量结果，还通过详尽的消融实验和统计学分析，深入剖析了每个设计组件的作用和贡献，增强了结论的可信度。
七、 其他有价值内容
研究也客观讨论了ULD-Net的局限性：尽管通过大核深度卷积和UMLP降低了模型复杂度，但其FLOPs仍高于基于变换器的模型，这是大卷积核固有的缺点。更高的模型复杂度会减慢训练速度。如何在保持精度的同时进一步降低复杂度和提升训练速度，是未来的潜在研究方向。此外，由于部分对比模型无法在官方测试集上评估，本研究使用了公开数据进行测试，这可能与官方测试存在细微差异，未来需要通过参与官方挑战赛进行更严格的验证。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问