Zhaoyang Tan, Qing Cai, Chengyi Xia 等人近期在《Pattern Recognition Letters》期刊(发表于2026年)上发表了一项关于三维医学图像分割的重要研究成果。这项研究由天津人工智能学院的研究团队完成,旨在解决当前三维医学图像分析领域面临的一个核心挑战:大型基础模型虽然性能强大,但其在三维体积数据上进行推理所产生的惊人计算成本,严重阻碍了在实时临床环境中的实际部署。该研究属于计算机视觉和医学图像分析领域,特别聚焦于深度学习模型的轻量化设计与高效分割算法。
三维医学图像分割是计算机辅助诊断的基石,它需要从CT、MRI等成像设备获取的体积数据中精确勾画出病灶的轮廓。尽管以卷积神经网络和注意力机制为代表的深度学习模型在此任务上取得了显著成功,但它们均存在明显局限。卷积模型受限于局部感受野,难以建模长程依赖;而基于注意力的Transformer模型虽然在捕获全局上下文方面表现优异,但其计算复杂度随输入尺寸平方级增长,在处理海量三维数据时计算开销令人望而却步。现有方法普遍存在两个关键问题:其一,大多数模型在不同编码器阶段采用相同的结构,未能探索如何设计针对每个层级进行有效学习的专用特征;其二,为了降低大尺寸图像带来的计算负担,频繁的下采样操作进一步侵蚀了本就稀缺的目标信息。此外,现有的轻量级架构主要针对二维图像设计,缺乏注意力机制提供的全局视角,在体数据分割任务中处于劣势。因此,本研究的目标非常明确:设计一个用于三维医学图像分割的轻量级模型,在保持高性能的同时,突破当前的计算瓶颈。
为了解决上述问题,研究团队提出了VWENet,一个集成多项互补创新的轻量级U形网络架构。其工作流程主要包含以下几个核心部分,并辅以详尽的实验验证。
首先,研究团队创新性地提出了体素融合小波池化模块。传统池化操作(如最大池化、平均池化)在降维时会引入高频混叠伪影,导致信息丢失,这对于精细结构的精确分割尤为不利。离散小波变换因其良好的时频局部化特性,被视为一种潜在的替代方案,但此前的工作多局限于二维图像,且通常只保留低频分量。该研究指出,高频信息对于小目标的细节至关重要。因此,VFWP模块通过三维离散小波变换将输入特征图分解为八个子带,包括一个低频子带(B_LLL)和七个高频子带(如B_LLH, B_LHL等)。该模块的创新之处在于,它不仅保留了包含主体结构信息的低频分量,还将七个高频子带进行拼接,并通过一个归一化的高频权重图进行动态加权融合,生成一个增强的高频特征。最终输出通过将低频分量与加权融合后的高频特征进行逐元素相加得到。这一过程有效缓解了传统池化固有的混叠问题,在降采样同时保留了高、低频关键信息,为后续精确分割奠定了坚实基础。
其次,VWENet的编码器采用了分阶段的轻量级模块设计,以适应不同深度下特征学习的侧重点变化。在模型浅层,局部信息更为关键。为此,团队设计了深度分离与通道注意力卷积模块。DACONV采用并行架构:一个分支沿深度维度扩展感受野以捕获跨切片依赖;另一个分支在高度-宽度平面提取空间特征,关注切片内结构;同时,一个快速下采样-上采样分支生成注意力图,实现即使在有限计算资源下也能进行全局器官级别的上下文建模。三个分支的结果通过残差连接进行融合,高效地提取了局部精细特征。
随着网络加深,模型需将关注点转向高级语义特征。研究团队借鉴混合专家模型思想,提出了高效的路径专家混合注意力模块。EMPA的核心在于一个低秩混合专家模块和一个共享注意力机制。LRMoE包含一个共享专家和多个任务特定专家。每个专家使用可分离三维卷积,先将通道压缩至低秩维度以减少参数量,再融合深度上下文信息。在推理时,一个路由网络动态选择激活特定的专家来处理不同目标的高级特征,并引入辅助损失以防止专家极化。CSA模块则通过让空间注意力和通道注意力共享查询和键的权重,并采用低秩策略降低参数量,实现了空间与通道特征的融合,并将注意力计算复杂度从O(N^2)降至O(NM)。这一设计使得模型在深度阶段能高效地聚焦于全局高阶表征。
在模型的中间阶段,特征学习应从局部细节逐渐转向全局特征。为此,研究团队设计了一个混合模块,并采用了通道分配策略。具体而言,将输入通道均匀分成两部分,一部分通过DACONV处理以捕获局部细节,另一部分通过EMPA处理以捕获全局依赖,最后将两个分支的输出特征进行拼接。这种混合设计确保了特征学习的平稳过渡。
为了验证VWENet的有效性,研究团队在三个公开的医学图像分割基准数据集上进行了全面实验:ACDC(心脏MRI,100例,分割左心室、右心室、心肌)、KiTS19(肾脏CT,分割肾脏及肿瘤)和BraTS(脑肿瘤MRI,285例,分割水肿、增强肿瘤、坏死核心)。实验在NVIDIA 2080 Ti GPU上使用PyTorch框架实施,采用Adam优化器,以Dice系数、浮点运算数、内存使用量和参数量作为主要评估指标。
实验取得了显著成果。在ACDC数据集上,VWENet取得了最高的平均Dice分数(93.09%),超越了包括UNet、V-Net、TransUNet、SwinUNet、UNETR等在内的众多先进模型。可视化结果表明,VWENet的结果最佳地保持了三个心腔之间的空间关系,没有出现相互侵蚀或粘连,这反映了VFWP模块对高频细节的有效保留。在专注于肿瘤分割的KiTS19数据集上,VWENet在肿瘤分割的Dice分数上达到68.74%,领先于其他方法。可视化显示,VWENet利用高频子带有效保留了肿瘤的不规则纹理,绿色肿瘤区域边界锐利,与周围组织清晰可分,对小肿瘤结节的检出率最高,避免了其他方法出现的“肿瘤吞没”现象或肿瘤异质性表征不足的问题。在更具挑战性的脑肿瘤分割任务(BraTS)上,VWENet在全肿瘤、肿瘤核心和增强肿瘤分割的Dice分数上,分别领先于次优模型1.68%、1.86%和0.89%。分割结果在肿瘤核心区和水肿区的勾画更为准确,边界更清晰、连续,且孤立的假阳性体素更少。
深入的消融研究进一步证实了各模块的贡献。将VFWP替换为传统平均池化或最大池化,分别导致平均Dice下降1.53%和1.06%。仅使用低频分量或使用全部子带但未加权的方案,分别带来0.94%和0.52%的精度提升,这表明每个高频子带都贡献了独特信息,而权重层能动态筛选细节特征并抑制噪声或冗余。将EMPA替换为标准Transformer,导致Dice下降2.19%且参数量翻倍;若不共享Q/K权重,计算成本会显著增加。应用低秩策略后,计算成本从41.65 GFLOPs显著降低至36.22 GFLOPs。这些结果证实了EMPA的混合特征融合能力对分割性能至关重要,且在资源受限场景中不可或缺。对DACONV和混合架构的消融实验也表明,所提出的混合设计(在早期阶段使用DACONV,在深层阶段引入EMPA,在中间阶段采用混合模块)在性能和计算成本之间达到了最佳平衡。
在计算资源消耗方面,VWENet在所有对比模型(包括UNet、V-Net、TransUNet、SwinUNet、UNETR等)中实现了最低的FLOPs(36.22 G)和较小的参数量(8.03 M),同时内存占用(3.49 G)和单次推理时间(37.12 ms)也具有显著优势。与LCovNet、SlimUNETR、DFMNet等其他轻量级方法相比,VWENet仍然保持着最低的FLOPs,并且在平均Dice分数上显著优于它们,领先幅度平均达4.45%。这充分证明了VWENet在精度和资源消耗之间取得了优越的平衡。
本研究的主要结论是,VWENet成功地将小波池化、低秩设计和通道分配策略相结合,显著降低了三维医学图像分割的计算开销。它不仅超越了众多重量级网络的分割精度,而且在轻量级竞争对手中达到了最低的计算复杂度和第二小的参数量。这使得VWENet能够作为一种高效的“学生模型”,在资源受限的场景中为大型基础模型(如MedSAM、MONAI Models)提供低成本的推理替代方案,为重型模型的临床部署开辟了新的可能性。
此项研究的亮点在于其系统性的创新整合。首先,VFWP模块是首个专门针对三维医学图像设计的小波融合池化方法,有效解决了传统下采样中的信息丢失问题。其次,分阶段的混合编码器设计(DACONV、EMPA及混合模块)是一种新颖的架构思想,它使网络能够自适应地从局部细节学习过渡到全局语义理解。第三,所提出的LRMoE和CSA机制,在保持注意力机制全局建模能力的同时,极大地压缩了模型参数和计算量。最后,整个工作验证了将多尺度分析(即使是基础的小波变换)集成到轻量级三维分割网络中的巨大潜力。虽然标准小波在方向选择性上存在局限,但本研究表明它们已经能带来显著改进。这为未来探索将计算效率更高的各向异性多尺度变换(如快速剪切波)集成到VWENet框架中留下了令人兴奋的空间。
这项研究为实时三维医学图像分析提供了一个兼具高性能与低资源消耗的实用解决方案,对推动计算机辅助诊断在临床环境中的实际应用具有重要的科学价值与应用价值。