基于视觉Mamba和XLSTM-UNET的医学图像分割方法

分享自：

基于视觉Mamba和XLSTM-UNET的医学图像分割方法

医学

人工智能

期刊:scientific reportsDOI:10.1038/s41598-025-88967-5

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
医学图像分割新突破：VMaxL-UNet融合SSM与xLSTM的创新架构
作者及机构
 本研究由云南大学信息科学与工程学院的Xin Zhong、Gehao Lu（通讯作者）和Hao Li合作完成，发表于*Scientific Reports*期刊（2025年15卷，文章编号8163）。
一、学术背景研究领域与动机
 医学图像分割是计算机辅助诊断的核心任务，但现有方法存在两大瓶颈：
 1. 卷积神经网络（CNN） 受限于局部感受野，难以建模长程依赖关系（long-range dependencies）；
 2. Transformer 虽能捕捉全局信息，但计算复杂度高，难以应用于临床高分辨率图像。
研究目标
 团队提出VMaxL-UNet，首次将结构化状态空间模型（Structured State Space Model, SSM）与轻量化xLSTM（Extended LSTM）结合，旨在平衡局部细节与全局语义的建模效率，提升复杂病灶（如皮肤病变、息肉）的边界分割精度。
二、研究流程与方法1. 模型架构设计核心模块
 - 视觉状态空间模块（VSS）：基于SSM的2D选择性扫描（SS2D），通过四方向序列展开（图2a）和合并（图2b）实现线性复杂度的全局特征提取。
 - 视觉增强LSTM模块（VIL）：引入矩阵LSTM（mLSTM），将传统LSTM的向量运算扩展为矩阵运算，通过FlashAttention机制动态更新细胞状态（公式9-12），提升长序列并行处理能力。
编码器-解码器结构
 - 编码器：4阶段下采样，前3阶段为VSS+BasicConv块，第4阶段融合VSS+VIL，通道数逐级倍增（C→8C）；
 - 解码器：对称上采样结构，通过Patch Expansion恢复分辨率，Skip Connection采用加法融合特征；
 - 门控机制（公式18-19）自适应加权VSS与VIL输出，优化多尺度特征融合。
2. 实验设计数据集与预处理
 - 皮肤病变分割：ISIC17（2,150张）、ISIC18（2,694张），按7:3划分训练/测试集；
 - 息肉分割：Kvasir-SEG（1,000张）、CVC-ClinicDB（612张），采用Pranet（2020）的分割策略。
 - 数据增强：随机翻转、旋转，图像统一缩放至256×256像素。
训练细节
 - 硬件：NVIDIA A10 GPU；
 - 超参数：AdamW优化器（初始学习率2.3e-4）、CosineAnnealingLR调度器（最小学习率1e-5）、混合损失函数（β1=1，β2=1）：
 $$L{BCE+Dice} = - \frac{1}{N}\sum{i=1}^N [y_i \log(p_i) + (1-y_i)\log(1-p_i)] + \left(1 - \frac{2\sum y_i p_i}{\sum y_i + \sum p_i}\right)$$
3. 对比与评估基线模型
 - CNN类：UNet、EGe-UNet；
 - Transformer类：Swin-UNet；
 - SSM类：VM-UNet；
 - xLSTM类：xLSTM-UNet。
评估指标
 - mIoU（平均交并比）、Dice系数（DSC）、计算量（GFLOPs）、参数量（Params）。
三、主要结果1. 性能对比皮肤病变分割：在ISIC17/18上，mIoU达82.11%/83.6%，较传统UNet提升5.13-7.24个百分点（表1）；
 
息肉分割：Kvasir-SEG数据集DSC达91.81%，边界模糊病灶的识别显著优于VM-UNet（+2.8%，表2）。
 
2. 效率优势计算量仅21.34 GFLOPs，远低于xLSTM-UNet（100.34 GFLOPs），参数量50.21M（表3）；
 
注意力热图（图6）显示VIL模块能精准聚焦病灶边界，避免传统LSTM的注意力扩散问题。
 
3. 消融实验模块贡献：仅用BasicConv的模型mIoU为78.86%，加入VSS后提升至80.15%，完整VMaxL-UNet达82.31%（表4）；
 
VIL数量：1个VIL块效果最优（mIoU 82.31%），过多会导致过拟合（表5）。
 
四、结论与价值科学价值
 1. 方法论创新：首次将SSM与xLSTM结合，为医学图像分割提供线性复杂度的全局建模方案；
 2. 临床意义：在低对比度、边界模糊的病灶（如早期黑色素瘤、细小息肉）中实现SOTA性能，助力精准诊断。
应用前景
 模型设计具有通用性，未来可扩展至3D医学图像（如CT肿瘤分割）及其他时序数据处理任务。
五、研究亮点跨领域融合：将NLP领域的SSM和xLSTM创新性迁移至视觉任务；
 
效率-精度平衡：通过门控机制和轻量化设计，解决Transformer的高计算成本问题；
 
开源数据：所有实验数据集均公开，包括ISIC挑战赛和Kvasir-SEG官方数据。
 
局限性
 当前版本参数量较大（50.21M），未来可通过神经架构搜索（NAS）进一步压缩模型。
（报告字数：约1,800字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问