本研究于2026年在《Biomedical Signal Processing and Control》期刊上发表,题为《D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation》。该研究由来自华盛顿大学医学院圣路易斯Mallinckrodt放射学研究所的Jin Yang、Peijie Qiu、Daniel S. Marcus、Aristeidis Sotiras(通讯作者)以及复旦大学数据科学学院的Yichi Zhang共同合作完成。
本研究的学术背景聚焦于医学图像分割领域,特别是三维(3D)体数据分割。这是临床诊断、预后评估和治疗规划的关键支撑技术。近年来,基于深度学习的方法成为主流。其中,视觉变换器(Vision Transformer, ViT)因其能够利用自注意力机制建立大感受野并捕获长程上下文信息而取得了显著成功。然而,其自注意力机制在处理高分辨率图像(尤其是3D体数据)时存在计算复杂度高、时间和空间开销大的问题。层次化的ViT(hierarchical ViT)通过近似线性复杂度的自注意力缓解了这一问题,但它通常首先通过一个卷积“主干”对输入图像进行下采样以生成特征嵌入。这种设计在图像分类中高效,但在分割任务中,却导致早期丢失了原始分辨率下的精细像素级信息,使其难以有效提取识别物体边界和解剖细节所需的低层级特征(low-level features)。另一方面,卷积神经网络(Convolutional Neural Networks, CNN)擅长提取局部特征,但标准CNN的小尺寸卷积核(如3×3×3)在捕获全局上下文信息方面存在局限。虽然使用大卷积核(Large Kernel, LK)可以扩大感受野,但传统固定尺寸的大卷积核无法自适应地捕获形状和尺寸差异巨大的器官的多尺度特征,并且同样缺乏有效利用全局信息的能力。针对这些挑战,本研究旨在开发一种新的网络架构,能够同时高效利用大感受野捕获多尺度局部特征,自适应地融合全局上下文信息,并能直接从原始分辨率图像中有效提取低层级特征,从而提升三维医学图像分割的准确性和鲁棒性。
详细的工作流程方面,本研究设计并构建了一个名为D-Net的新型分割网络。其核心包含三个关键创新模块:动态大卷积核(Dynamic Large Kernel, DLK)模块、动态特征融合(Dynamic Feature Fusion, DFF)模块和显着层(Salience Layer)。D-Net的整体架构采用U型编码器-解码器结构,并集成了层次化ViT的缩放特性。 1. DLK模块:这是网络的基础特征提取模块。为了捕获多尺度特征并形成大感受野,DLK模块中的DLK层(DLK_L)设计为级联使用两个具有不同尺寸和膨胀率的深度可分离大卷积核:第一个是核大小为5×5×5、膨胀率为1的卷积;第二个是核大小为7×7×7、膨胀率为3的卷积。这种级联设计等效于一个23×23×23的大卷积核的感受野。随后,该模块引入了一个动态选择机制。首先,通过平均池化和最大池化提取特征的全局空间关系,再通过一个7×7×7的卷积层和Sigmoid函数生成动态权重,用于自适应地校准来自不同大卷积核的特征。接着,通过另一个基于通道的注意力机制(平均池化、1×1×1卷积和Sigmoid函数)来突出重要通道。最终,DLK模块被整合到层次化ViT的块中,替代原有的多头自注意力机制,构成了DLK块(DLK_B)。 2. DFF模块:该模块被用于在解码器中自适应地融合来自编码器的跳跃连接特征和上采样特征。其核心思想是利用全局信息动态选择重要特征。首先,它将两组特征沿通道维度拼接,然后通过一个通道动态选择机制(提取全局通道信息并生成权重)来引导一个1×1×1卷积层,以选择和保留重要特征,同时减少通道数。接着,从输入的两组原始特征中分别提取空间信息,并通过Sigmoid函数生成空间权重图,用于强调融合后特征中的重要空间区域。 3. 显着层(Salience Layer):为了直接从原始分辨率图像中提取低层级特征,避免因早期下采样而丢失细节,本研究提出了显着层。该层位于网络的解码器末端。其核心是一个通道混合器(Channel Mixer)。通道混合器首先使用1×1×1卷积扩展通道数,然后使用一个3×3×3的深度可分离卷积层在原始空间维度上操作,并配合GELU激活函数,这使得它能够在保持高空间分辨率的同时,让特征跨通道进行有效交互,从而学习全局表征。显着层提取的特征通过一个DFF模块与解码器上采样得到的高级特征进行融合。 4. 数据集与实验设置:研究在三个具有不同特性的公开数据集上进行了广泛的实验以验证D-Net的泛化能力:AMOS 2022(腹部多器官CT分割,300例)、MSD脑肿瘤分割(多模态MRI,484例)和MSD肝血管肿瘤分割(CT,303例)。此外,还使用MSD脾脏分割数据集(41例)进行了外部泛化性评估。所有实验均采用5折交叉验证以确保结果稳健。模型使用PyTorch实现,损失函数结合了Dice损失和交叉熵损失。图像预处理包括强度裁剪、Z-score归一化、以及随机旋转、缩放、镜像、高斯噪声和亮度调整等数据增强技术。分割性能使用Dice系数(Dice Score)和交并比(IoU)评估,模型复杂度通过参数量(Params)和浮点运算次数(FLOPs)衡量。 5. 实验流程:研究首先将D-Net与多种当前最先进的(SOTA)方法进行全面比较,包括基于CNN的方法(VNet, nnU-Net, Att U-Net)、基于ViT的方法(nnFormer, SegFormer)、基于CNN-ViT混合的方法(TransBTS, UNETR, Swin UNETR, VSMTrans)以及基于大卷积核-ViT混合的方法(3D UX-Net, MedNext)。随后,研究进行了系统的消融实验,分别评估了DLK模块(比较不同卷积核配置和动态机制的效果)、DFF模块(评估其对不同骨干网络的影响,并与另一种特征融合模块AFF进行比较)和显着层(比较通道混合器与普通卷积块、DLK块的效果)的必要性和有效性。此外,研究还设计了一个名为DLK-NetR的对比模型,将DLK模块嵌入到与UNETR等模型相同的CNN-ViT混合架构中,以更公平地比较DLK模块本身相对于其他编码模块(如标准Transformer模块、Swin Transformer模块、固定大卷积核模块)的优越性。最后,研究通过可视化分割结果、生成注意力热图以及分析失败案例,对模型性能进行了定性评估和讨论。
本研究的主要结果如下: 1. 在多器官、脑肿瘤和肝血管肿瘤分割任务上的性能:在AMOS腹部多器官分割任务中,D-Net取得了最高的平均Dice分数(89.67)和最低的标准差(12.56),在所有15个器官的分割精度上均优于对比方法,尤其是在胆囊、十二指肠和肾上腺等形态变化较大的器官上提升明显,同时其参数量(39.28M)和计算量(200.13G FLOPs)低于或可与多数SOTA模型媲美。在MSD脑肿瘤分割任务中,D-Net同样取得了最佳的平均Dice分数(74.42)。在MSD肝血管肿瘤分割任务中,D-Net的平均Dice分数(67.63)和血管、肿瘤分割的单项分数均最高,且标准差最低。这些结果一致表明D-Net在多种复杂分割任务中具有优越且鲁棒的性能。 2. 外部评估与泛化能力:将在AMOS数据集上训练的模型直接应用于MSD脾脏数据集进行零样本预测,D-Net取得了最高的Dice分数(94.12),并且其内部与外部评估的性能差距(泛化鸿沟)最小(3.48),证明了其出色的泛化能力。 3. 消融实验结果: * DLK模块:实验证明,相比于使用单个5×5×5卷积核,级联两个大卷积核形成23×23×23感受野能将Conv-ViT骨干网络的平均Dice提升约1分(从84.37到85.30);进一步加入动态选择机制后(即使用完整的DLK模块),性能进一步提升至86.27。在D-Net骨干上也有类似的积极效果,表明大感受野和动态机制均对提升分割性能有重要贡献。 * DFF模块:将DFF模块引入nnU-Net、Conv-ViT和DLK-ViT等不同骨干网络,均能带来1-2分的Dice分数提升。在D-Net中,用DFF替换简单的特征拼接操作,能将平均Dice从88.04提升至89.67。此外,DFF的性能显著优于另一种特征融合模块AFF,在不同骨干网络上能带来2-4分的Dice分数优势。 * 显着层与通道混合器:在D-Net中加入显着层显著提升了性能(从87.46提升至89.67)。在显着层中,使用通道混合器比使用普通卷积块(ConvBlock)获得了更高的Dice分数(89.67 vs. 89.34)和更低的计算成本,表明通道混合器在提取低层级全局特征方面的有效性。 4. DLK模块的优越性验证:通过构建DLK-NetR并与采用相同混合架构但编码器模块不同的模型(UNETR、Swin UNETR、UX-Net、VSMTrans)进行比较,DLK-NetR在三个数据集上均取得了最优或极具竞争力的性能,且模型复杂度较低。这直接证明了DLK模块作为一种通用特征提取模块,在捕获多尺度局部特征和利用全局信息方面优于标准的Transformer、Swin Transformer或固定大卷积核模块。 5. 可视化与可解释性分析:定性结果显示,D-Net在定位邻近器官、分割小尺寸结构、保持边界清晰度以及理解异质性组织(如胰腺、脑病变、肝肿瘤)的形态模式方面均优于对比方法。注意力热图表明,D-Net能更准确地将注意力集中在目标区域,同时保留局部细节,体现了其融合全局与局部信息的能力。 6. 失败案例分析:研究发现,在不同架构的SOTA方法中,失败案例(Dice分数最低的样本)具有高度一致性,表明某些具有特定解剖特征或病理特性的病例对所有算法都构成挑战。研究还发现一个疑似原始图像与标注错位的案例。
本研究的结论是,成功提出了一种用于三维医学图像分割的新型网络D-Net。它通过动态大卷积核(DLK)模块实现了大感受野下的多尺度局部特征自适应提取,通过动态特征融合(DFF)模块实现了基于全局信息的特征自适应融合,并通过显着层(Salience Layer)及其中的通道混合器(Channel Mixer)有效解决了ViT架构在提取原始分辨率低层级特征方面的不足。D-Net在多个具有不同模态和挑战性的分割任务上取得了超越现有最先进方法的精度,同时保持了相对较低的计算复杂度,展现了优异的泛化能力和鲁棒性。
本研究的亮点在于:第一,提出了轻量级的DLK和DFF模块,将多尺度大卷积核与基于全局上下文的自适应动态机制相结合,创新性地增强了卷积操作对全局信息的利用能力。第二,明确提出了ViT类分割模型在低层级特征提取上的局限性,并设计了显着层和通道混合器这一新颖的解决方案,使模型能够直接在原始分辨率上操作并捕获像素级全局表征。第三,通过系统性且严谨的实验设计,包括在三个差异巨大的数据集上的性能评估、详尽的消融研究、与多种类型SOTA模型的公平对比、外部泛化性测试以及针对核心模块(DLK)的架构对比实验,全面且有力地验证了所提方法的有效性和优越性。第四,研究不仅关注定量指标,还通过可视化、注意力分析和失败案例探讨,对模型行为进行了深入的定性分析,增强了研究的可解释性和深度。这项工作为医学图像分割领域提供了一种高效、精准且通用的新架构,具有重要的科学价值和应用潜力。