分享自:

基于MLP的快速医学图像分割网络UNeXt

期刊:Springer Nature Switzerland AGDOI:10.1007/978-3-031-16443-9_3

UNeXt:基于MLP的快速医学图像分割网络——面向床边诊疗的高效解决方案

作者及发表信息
本研究由约翰霍普金斯大学的Jeya Maria Jose Valanarasu和Vishal M. Patel合作完成,论文发表于2022年的MICCAI会议(《Medical Image Computing and Computer Assisted Intervention》),收录于LNCS系列第13435卷。


学术背景

科学领域与问题
医学图像分割是计算机辅助诊断(Computer-Aided Diagnosis, CAD)和图像引导手术的核心任务。传统方法如U-Net及其变体(如U-Net++、TransUNet)依赖大量参数和复杂计算,难以适配计算资源有限的床边诊疗(Point-of-Care, POC)场景。随着医疗影像设备(如便携超声、手机皮肤镜)的普及,开发轻量化、低延迟的分割算法成为迫切需求。

研究目标
UNeXt旨在通过结合卷积神经网络(CNN)与多层感知机(Multilayer Perceptron, MLP),解决以下问题:
1. 降低参数量与计算复杂度;
2. 提升推理速度;
3. 保持与主流方法(如Transformer)相当的精度。


研究流程与方法

1. 网络架构设计

UNeXt采用两阶段编码器-解码器结构
- 卷积阶段:前3个块为传统卷积层(3×3核,步长1),用于提取局部特征。
- Tokenized MLP阶段:后2个块引入新型Tokenized MLP(Tok-MLP)模块,通过以下创新实现高效建模:
- 特征标记化(Tokenization):将卷积特征投影为低维令牌(Token),嵌入维度设为768。
- 轴向移位(Axial Shift):在MLP前对输入通道沿高度/宽度方向移位(偏移量j=5),强制模型学习局部依赖性(类似Swin Transformer的窗口注意力机制)。
- 深度卷积(DWConv):替代位置编码,增强令牌的空间信息。

关键参数:通道数逐层递增(C1=32至C5=256),显著少于U-Net的同类设计。

2. 实验验证

数据集
- ISIC 2018(皮肤病变分割,2594张图像,分辨率512×512);
- BUSI(乳腺超声分割,647张图像,分辨率256×256)。

训练配置
- 损失函数:二元交叉熵(BCE)+ Dice损失;
- 优化器:Adam(初始学习率0.0001,余弦退火调度);
- 硬件:CPU(Intel Xeon Gold 6140)模拟床边设备环境。

对比基线
包括U-Net、TransUNet、MedT等,评估指标涵盖分割性能(F1、IoU)、参数量、计算量(GFLOPs)及推理时间。


主要结果

  1. 性能优势

    • ISIC数据集:UNeXt的F1达89.70±0.96%,优于TransUNet(88.91±0.63%);
    • BUSI数据集:IoU为66.95±1.22%,与TransUNet相当(66.92±0.75%)。
  2. 效率突破

    • 参数量仅1.58M,为TransUNet的1/72(105.32M);
    • 计算量0.57 GFLOPs,降低68倍;
    • CPU推理速度25ms,提速10倍。
  3. 消融实验验证

    • Tokenized MLP模块:将F1从80.12%提升至88.78%;
    • 轴向移位操作:进一步优化至90.41%(p<10^-5)。

结论与价值

科学意义
- 首次将MLP与CNN结合用于医学图像分割,提出Tokenized MLP模块轴向移位策略,为轻量化设计提供新思路。

应用价值
- 适配床边诊疗设备(如便携超声、手机皮肤镜),推动实时诊断普及;
- 开源代码(GitHub)促进临床部署与迭代。


创新亮点

  1. 方法创新
    • 标记化MLP在潜在空间的高效表征;
    • 轴向移位实现局部依赖建模,无需增加参数。
  2. 性能平衡:在参数量、速度、精度三者间取得最优权衡。
  3. 临床适配性:首次针对POC场景优化分割网络,填补研究空白。

局限性:当前仅在2D图像验证,未来需扩展至3D分割(如CT/MRI)。


其他有价值内容
- 通道数分析:实验表明,UNeXt-L(C5=512)性能更优(F1=90.65%),但计算量增至1.42 GFLOPs,需根据设备资源权衡。
- 与MLP-Mixer对比:UNeXt的混合架构(CNN+MLP)优于纯MLP设计,参数量减少88%(11M→1.47M)。

(注:全文共约1500字,涵盖研究全流程及核心创新点。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com