UNeXt:基于MLP的快速医学图像分割网络——面向床边诊疗的高效解决方案
作者及发表信息
本研究由约翰霍普金斯大学的Jeya Maria Jose Valanarasu和Vishal M. Patel合作完成,论文发表于2022年的MICCAI会议(《Medical Image Computing and Computer Assisted Intervention》),收录于LNCS系列第13435卷。
科学领域与问题
医学图像分割是计算机辅助诊断(Computer-Aided Diagnosis, CAD)和图像引导手术的核心任务。传统方法如U-Net及其变体(如U-Net++、TransUNet)依赖大量参数和复杂计算,难以适配计算资源有限的床边诊疗(Point-of-Care, POC)场景。随着医疗影像设备(如便携超声、手机皮肤镜)的普及,开发轻量化、低延迟的分割算法成为迫切需求。
研究目标
UNeXt旨在通过结合卷积神经网络(CNN)与多层感知机(Multilayer Perceptron, MLP),解决以下问题:
1. 降低参数量与计算复杂度;
2. 提升推理速度;
3. 保持与主流方法(如Transformer)相当的精度。
UNeXt采用两阶段编码器-解码器结构:
- 卷积阶段:前3个块为传统卷积层(3×3核,步长1),用于提取局部特征。
- Tokenized MLP阶段:后2个块引入新型Tokenized MLP(Tok-MLP)模块,通过以下创新实现高效建模:
- 特征标记化(Tokenization):将卷积特征投影为低维令牌(Token),嵌入维度设为768。
- 轴向移位(Axial Shift):在MLP前对输入通道沿高度/宽度方向移位(偏移量j=5),强制模型学习局部依赖性(类似Swin Transformer的窗口注意力机制)。
- 深度卷积(DWConv):替代位置编码,增强令牌的空间信息。
关键参数:通道数逐层递增(C1=32至C5=256),显著少于U-Net的同类设计。
数据集:
- ISIC 2018(皮肤病变分割,2594张图像,分辨率512×512);
- BUSI(乳腺超声分割,647张图像,分辨率256×256)。
训练配置:
- 损失函数:二元交叉熵(BCE)+ Dice损失;
- 优化器:Adam(初始学习率0.0001,余弦退火调度);
- 硬件:CPU(Intel Xeon Gold 6140)模拟床边设备环境。
对比基线:
包括U-Net、TransUNet、MedT等,评估指标涵盖分割性能(F1、IoU)、参数量、计算量(GFLOPs)及推理时间。
性能优势:
效率突破:
消融实验验证:
科学意义:
- 首次将MLP与CNN结合用于医学图像分割,提出Tokenized MLP模块和轴向移位策略,为轻量化设计提供新思路。
应用价值:
- 适配床边诊疗设备(如便携超声、手机皮肤镜),推动实时诊断普及;
- 开源代码(GitHub)促进临床部署与迭代。
局限性:当前仅在2D图像验证,未来需扩展至3D分割(如CT/MRI)。
其他有价值内容
- 通道数分析:实验表明,UNeXt-L(C5=512)性能更优(F1=90.65%),但计算量增至1.42 GFLOPs,需根据设备资源权衡。
- 与MLP-Mixer对比:UNeXt的混合架构(CNN+MLP)优于纯MLP设计,参数量减少88%(11M→1.47M)。
(注:全文共约1500字,涵盖研究全流程及核心创新点。)