分享自:

基于视觉Mamba和XLSTM-UNET的医学图像分割方法

期刊:scientific reportsDOI:10.1038/s41598-025-88967-5

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


医学图像分割新突破:VMaxL-UNet融合SSM与xLSTM的创新架构

作者及机构
本研究由云南大学信息科学与工程学院的Xin Zhong、Gehao Lu(通讯作者)和Hao Li合作完成,发表于*Scientific Reports*期刊(2025年15卷,文章编号8163)。


一、学术背景

研究领域与动机
医学图像分割是计算机辅助诊断的核心任务,但现有方法存在两大瓶颈:
1. 卷积神经网络(CNN) 受限于局部感受野,难以建模长程依赖关系(long-range dependencies);
2. Transformer 虽能捕捉全局信息,但计算复杂度高,难以应用于临床高分辨率图像。

研究目标
团队提出VMaxL-UNet,首次将结构化状态空间模型(Structured State Space Model, SSM)与轻量化xLSTM(Extended LSTM)结合,旨在平衡局部细节与全局语义的建模效率,提升复杂病灶(如皮肤病变、息肉)的边界分割精度。


二、研究流程与方法

1. 模型架构设计

核心模块
- 视觉状态空间模块(VSS):基于SSM的2D选择性扫描(SS2D),通过四方向序列展开(图2a)和合并(图2b)实现线性复杂度的全局特征提取。
- 视觉增强LSTM模块(VIL):引入矩阵LSTM(mLSTM),将传统LSTM的向量运算扩展为矩阵运算,通过FlashAttention机制动态更新细胞状态(公式9-12),提升长序列并行处理能力。

编码器-解码器结构
- 编码器:4阶段下采样,前3阶段为VSS+BasicConv块,第4阶段融合VSS+VIL,通道数逐级倍增(C→8C);
- 解码器:对称上采样结构,通过Patch Expansion恢复分辨率,Skip Connection采用加法融合特征;
- 门控机制(公式18-19)自适应加权VSS与VIL输出,优化多尺度特征融合。

2. 实验设计

数据集与预处理
- 皮肤病变分割:ISIC17(2,150张)、ISIC18(2,694张),按7:3划分训练/测试集;
- 息肉分割:Kvasir-SEG(1,000张)、CVC-ClinicDB(612张),采用Pranet(2020)的分割策略。
- 数据增强:随机翻转、旋转,图像统一缩放至256×256像素。

训练细节
- 硬件:NVIDIA A10 GPU;
- 超参数:AdamW优化器(初始学习率2.3e-4)、CosineAnnealingLR调度器(最小学习率1e-5)、混合损失函数(β1=1,β2=1):
$$L{BCE+Dice} = - \frac{1}{N}\sum{i=1}^N [y_i \log(p_i) + (1-y_i)\log(1-p_i)] + \left(1 - \frac{2\sum y_i p_i}{\sum y_i + \sum p_i}\right)$$

3. 对比与评估

基线模型
- CNN类:UNet、EGe-UNet;
- Transformer类:Swin-UNet;
- SSM类:VM-UNet;
- xLSTM类:xLSTM-UNet。

评估指标
- mIoU(平均交并比)、Dice系数(DSC)、计算量(GFLOPs)、参数量(Params)。


三、主要结果

1. 性能对比

  • 皮肤病变分割:在ISIC17/18上,mIoU达82.11%/83.6%,较传统UNet提升5.13-7.24个百分点(表1);
  • 息肉分割:Kvasir-SEG数据集DSC达91.81%,边界模糊病灶的识别显著优于VM-UNet(+2.8%,表2)。

2. 效率优势

  • 计算量仅21.34 GFLOPs,远低于xLSTM-UNet(100.34 GFLOPs),参数量50.21M(表3);
  • 注意力热图(图6)显示VIL模块能精准聚焦病灶边界,避免传统LSTM的注意力扩散问题。

3. 消融实验

  • 模块贡献:仅用BasicConv的模型mIoU为78.86%,加入VSS后提升至80.15%,完整VMaxL-UNet达82.31%(表4);
  • VIL数量:1个VIL块效果最优(mIoU 82.31%),过多会导致过拟合(表5)。

四、结论与价值

科学价值
1. 方法论创新:首次将SSM与xLSTM结合,为医学图像分割提供线性复杂度的全局建模方案;
2. 临床意义:在低对比度、边界模糊的病灶(如早期黑色素瘤、细小息肉)中实现SOTA性能,助力精准诊断。

应用前景
模型设计具有通用性,未来可扩展至3D医学图像(如CT肿瘤分割)及其他时序数据处理任务。


五、研究亮点

  1. 跨领域融合:将NLP领域的SSM和xLSTM创新性迁移至视觉任务;
  2. 效率-精度平衡:通过门控机制和轻量化设计,解决Transformer的高计算成本问题;
  3. 开源数据:所有实验数据集均公开,包括ISIC挑战赛和Kvasir-SEG官方数据。

局限性
当前版本参数量较大(50.21M),未来可通过神经架构搜索(NAS)进一步压缩模型。


(报告字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com