ULD-Net:一种用于3D医学图像分割的U形分支大核深度卷积体网络
一、 研究概况
本研究由来自重庆邮电大学图像认知重庆市重点实验室的Weisheng Li*、Juntong Ci、Feiyan Li、Guofeng Zeng和Zhaopeng Huang共同完成。研究成果以论文《ULD-Net: A U-Shaped Branch Large Kernel Depthwise Convolution Volume Network for 3D Medical Image Segmentation》的形式,于2025年10月7日在线发表于学术期刊《Biomedical Signal Processing and Control》第112卷,文章识别码为108746。
二、 学术背景
本研究的核心科学领域是医学图像处理,具体聚焦于基于深度学习的3D医学图像(如CT、MRI)多器官自动分割。自动分割技术对于辅助疾病诊断和治疗规划至关重要,但面临诸多挑战:器官形状和位置多变、解剖结构存在个体差异、器官间重叠导致对比度下降等。现有方法,特别是基于视觉变换器(Vision Transformers, ViTs)的模型(如Swin UNETR),虽然因其大感受野(Large Receptive Field)优势取得了最先进的性能,但也存在一些问题。它们缺乏卷积神经网络固有的归纳偏置(Inductive Bias),在分割时容易出现器官边界缺失或器官类型错误的问题。同时,变换器中基于自注意力(Self-Attention)的计算复杂度高,且对大规模数据依赖性强。
研究人员发现,大卷积核深度卷积(Large Kernel Depthwise Convolution)能够模拟变换器的大感受野特性,同时又能利用卷积的归纳偏置,从而有望解决上述问题。因此,本研究的目标是设计一个纯卷积网络架构,旨在以尽可能少的参数实现超越现有变换器模型的3D医学图像分割性能。具体而言,研究旨在通过引入大核深度卷积来模拟Swin变换器块的功能,并通过改进的稀疏MLP(MLP: Multi-Layer Perceptron)模块降低模型复杂度,最终提出一个新颖、高效且高性能的3D医学图像分割网络——ULD-Net。
三、 研究详细流程
本研究主要包含网络设计、实验验证与结果分析三大流程。
流程一:ULD-Net网络架构设计与核心模块创新 本研究的核心是提出ULD-Net网络。它是一个U形编码器-解码器结构。编码器部分完全由新颖设计的卷积模块构成,解码器则沿用Swin UNETR的基于CNN的解码器,并通过跳跃连接(Skip Connection)融合多尺度特征。
流程二:实验设置与对比验证 本研究在三个公开的腹部多器官CT数据集上进行了全面的实验验证:BTCV(30个样本)、FLARE 2021(30个样本)和AMOS 2022(300个样本)。数据进行了标准化预处理,包括Z-score归一化、重采样至统一体素间距、裁剪以及动态数据增强(随机空间裁剪、强度偏移、仿射变换等)。
流程三:数据分析与统计检验 使用Dice和NSD指标定量评估分割精度。为了确定ULD-Net性能提升的统计显著性,研究者对三个测试集中每个病例的平均Dice指数进行了组间方差分析(ANOVA),并基于最小显著差法(Least Significant Difference, LSD)进行了多重比较,计算p值。
四、 主要研究结果
结果一:网络模块消融实验结果(基于AMOS 2022数据集) 消融实验的结果(见表4)清晰地证明了每个设计选择的有效性: 1. 大核深度卷积的有效性:使用BLDc(Dice: 0.915)的模型性能显著优于使用W-MSA/SW-MSA(Dice: 0.898)的模型,验证了大核深度卷积在模拟变换器大感受野自注意力方面的优势,且收敛更快。 2. 深度卷积的优势:使用深度卷积的模型在参数量远低于标准卷积模型(约9.5倍)的情况下,取得了更高的Dice分数(0.915 vs. 0.890),证明了深度卷积在平衡参数效率和性能方面的优越性。 3. 分支结构的重要性:包含多尺寸核(9,7,5,3)的并行分支结构性能最佳(Dice: 0.915),优于任何单一核尺寸的卷积(如核9: 0.890, 核7: 0.893)或其他分支组合(如[9,7,5]: 0.894)。串联分支结构(Dice: 0.908)也逊于并行结构。这表明并行分支能更有效地整合多尺度特征。 4. UMLP的优越性:使用UMLP(Dice: 0.915)的模型性能远超不使用MLP(Dice: 0.887)和使用传统3D MLP(Dice: 0.891)的模型。值得注意的是,UMLP模块参数量仅为传统MLP块的50.64%,却实现了更好的性能。 5. 特征拼接(Concat)优于相加(Plus):特征拼接操作(Dice: 0.915)比逐元素相加(Dice: 0.909)能保留更丰富的信息,从而获得更好的分割结果。
结果二:在公开数据集上的性能对比结果 ULD-Net在三个数据集上均取得了最优的平均Dice分数(见表1,2,3): * BTCV数据集:平均Dice为0.887,优于之前最佳的RepUX-Net(0.858)和Swin UNETR(0.825)。 * FLARE 2021数据集:平均Dice为0.806,优于之前最佳的RepUX-Net(0.788)。 * AMOS 2022数据集:平均Dice为0.915,优于之前最佳的RepUX-Net和DeformerUx-Net(均为0.905)。 统计检验显示,在BTCV数据集上ULD-Net的改进具有显著性(p<0.05),在AMOS 2022和FLARE 2021数据集上具有高度显著性(p<0.01)。这从统计学上证实了ULD-Net性能提升并非偶然。
结果三:模型特性分析 1. 平衡卷积与变换器的优势:结果分析指出,基于卷积的模型(如nnU-Net)在分割胆囊、食道、胃等较小或边界模糊的器官时表现更好,因其卷积操作能有效提取固定区域内的特征。而基于变换器的模型(如Swin UNETR)因具有更大的感受野,在分割位置关系明确的器官(如肾上腺、膀胱)时更有优势。ULD-Net通过大核深度卷积同时获得了这两种优势,因此在多数器官分割上都表现优异。 2. 在小规模数据集上的鲁棒性:ULD-Net在数据量相对较小的BTCV和FLARE 2021数据集上对比SOTA模型的提升幅度(6.2%, 8.1%)大于在数据量较大的AMOS 2022数据集上的提升(2.3%),表明其具有更快的收敛速度和对有限数据的更强鲁棒性。 3. 计算效率:尽管ULD-Net的浮点运算次数(FLOPs, 655.22G)高于Swin UNETR(328.65G),但由于大核深度卷积的内存访问优化和深度可分离卷积的轻量化设计,其训练时间与后者相当,使其适用于临床场景。
五、 研究结论与价值
本研究成功提出并验证了ULD-Net,一个用于3D医学图像分割的U形分支大核深度卷积体网络。主要结论如下: 1. 核心贡献:ULD-Net利用大核深度卷积(BLDc)来模拟Swin变换器的大感受野自注意力功能,同时保留了卷积网络的归纳偏置优势。通过分支结构平衡了不同核尺寸卷积的特征表示。此外,改进的3D UMLP模块以更少的参数模拟了变换器的特征缩放功能。 2. 性能验证:在监督训练条件下,ULD-Net在BTCV、FLARE 2021和AMOS 2022三个具有挑战性的公共数据集上,其分割性能(以Dice指数衡量)超越了当前最先进的变换器模型和卷积网络模型。 3. 科学价值:本研究为“卷积神经网络能否替代或部分替代变换器功能”这一前沿问题提供了一个强有力的肯定案例。它证明通过精心设计,纯卷积网络能够整合并超越变换器在医学图像分割中的关键优势(大感受野建模),同时规避其计算复杂、依赖大数据等缺点。 4. 应用价值:ULD-Net为3D医学图像分割任务提供了一个高效、高性能的解决方案。其相对较低的参数量(55.85M)和合理的计算开销,使其具备在临床环境中实际部署的潜力,有助于推动医学图像分析辅助诊断的临床应用。
六、 研究亮点
七、 其他有价值内容
研究也客观讨论了ULD-Net的局限性:尽管通过大核深度卷积和UMLP降低了模型复杂度,但其FLOPs仍高于基于变换器的模型,这是大卷积核固有的缺点。更高的模型复杂度会减慢训练速度。如何在保持精度的同时进一步降低复杂度和提升训练速度,是未来的潜在研究方向。此外,由于部分对比模型无法在官方测试集上评估,本研究使用了公开数据进行测试,这可能与官方测试存在细微差异,未来需要通过参与官方挑战赛进行更严格的验证。