关于SegMamba-V2在三维医学图像分割中应用的研究报告
一、 研究作者、机构与发表信息 本研究由香港科技大学(广州)智能机器人学域(ROAS Thrust)的邢照虎(Zhaohu Xing)、叶天(Tian Ye)、杨一峻(Yijun Yang)与朱磊(Lei Zhu)教授,以及中山大学附属第六医院结直肠外科、普通外科、广东省结直肠盆底疾病研究重点实验室、生物医学创新中心的蔡度(Du Cai)、盖保文(Baowen Gai)、吴小剑(Xiao-Jian Wu)和高峰(Feng Gao)教授合作完成。该研究成果以题为“SegMamba-V2: Long-Range Sequential Modeling Mamba for General 3-D Medical Image Segmentation”的学术论文形式,发表于国际知名期刊 IEEE Transactions on Medical Imaging 第45卷第1期,发表于2026年1月。文章数字对象标识符(DOI)为10.1109/TMI.2025.3589797。
二、 学术背景与研究目的 本研究属于人工智能辅助的医学影像分析领域,具体聚焦于三维医学图像分割这一核心任务。三维医学图像分割旨在从CT、MRI等高维医学影像数据中逐像素或逐体素地识别并勾画出特定的解剖结构或病变区域(如肿瘤、器官),其结果能为医生诊断疾病、制定治疗方案提供至关重要的量化信息。
传统基于卷积神经网络(CNN)的分割方法,因其局部感受野的固有特性,难以有效建模三维图像中长距离的全局依赖关系。近年来,基于Transformer架构的模型利用自注意力(Self-Attention)机制捕捉全局信息,显著提升了分割性能。然而,自注意力机制在处理三维医学图像这类长序列数据时,存在计算复杂度二次方增长的问题,带来了巨大的计算负担。
为了应对长序列建模的挑战,一种名为Mamba的状态空间模型(State Space Model, SSM)应运而生。它通过选择机制和硬件感知算法,能够高效建模长程依赖关系,并在训练和推理效率上具有优势。尽管已有部分研究尝试将Mamba模型用于二维乃至三维图像分割,但其在三维医学图像中处理长序列、挖掘复杂解剖结构信息的潜力尚未得到充分探索。现有方法要么针对特征序列长度有限的二维图像,要么未能充分考虑三维医学图像数据独特的结构特性。
因此,本研究的主要目的是:开发一种新型的、基于Mamba模型的三维医学图像通用分割框架(命名为SegMamba-V2),旨在高效且准确地捕捉三维体数据中不同尺度下的长程依赖关系,从而实现对多样化模态、器官和分割目标的稳健分割。
三、 研究详细工作流程 本研究的工作流程主要包括SegMamba-V2模型架构的设计、核心创新模块的开发、新数据集的构建以及在多个公开基准数据集上的全面评估。
1. SegMamba-V2模型架构设计 研究采用了一个四阶段的卷积-Mamba混合架构。该架构整体上遵循编码器-解码器范式,并引入了独特的模块设计。 * 编码器部分:包含四个下采样阶段(Stage 1-4)。考虑到底层特征分辨率高、包含更多细节信息,Stage 1和Stage 2采用了大核深度可分离卷积(DWConv)块来高效聚合局部解剖信息。而对于高层特征(Stage 3和4),其包含更多语义信息但序列更长,研究团队设计了三向空间Mamba块(Tri-orientated Spatial Mamba Block, TSMamba) 来有效建模全局依赖。 * 下采样策略:在每个阶段的下采样过程中,研究摒弃了传统的池化层,提出了分层尺度下采样模块(Hierarchical Scale Downsampling, HS-Downsampling)。该模块并行使用卷积核尺寸分别为5x5x5、3x3x3和2x2x2的卷积层进行下采样,然后通过一个融合卷积层(1x1x1)合并特征。这种设计旨在利用不同大小感受野的优势,在扩大感受野的同时减轻下采样过程中的信息损失。 * 解码器部分:采用常规的上采样和跳跃连接结构。创新之处在于,在跳跃连接中引入了特征级不确定性估计模块(Feature-level Uncertainty Estimation, FUE)。该模块通过计算特征图通道均值并应用Sigmoid函数生成不确定性图,进而增强低不确定性特征,抑制高不确定性特征,从而在多尺度特征融合时提升特征质量。 * 核心创新模块一:三向正交Mamba模块 这是本研究的关键创新。三维医学图像具有冠状面(Coronal)、矢状面(Sagittal)和横断面(Axial)三个正交平面,每个平面都蕴含不同的解剖结构信息。为了充分利用这一特性,研究团队在TSMamba块中设计了三向正交Mamba模块(Tri-orientated Ortho Mamba, TOOM)。 * 门控空间卷积:在Mamba层之前,首先通过一个门控空间卷积模块捕获输入特征的空间关系,弥补Mamba将三维特征展平为一维序列时可能损失的空间信息。 * 三向扫描:TOOM模块包含分别对应于冠状面、矢状面和横断面的三个子模块(TOM-Coronal, Tom-Sagittal, Tom-Axial)。在每个子模块内,将三维特征沿特定平面方向展平为序列时,采用了三种扫描交互方式:前向特征交互、反向特征交互和跨组特征交互。通过融合这三个正交平面子模块的输出,模型能够从多个方向和平面建模全局依赖,从而更全面地理解三维医学图像。 * 核心创新模块二:分层尺度下采样 如前所述,HS-Downsampling模块通过组合不同卷积核的下采样路径,实现了在扩大感受野与保留局部细节之间的平衡,为后续特征提取提供了更高质量的多尺度表示。
2. 新数据集构建:CRC-2000 为促进三维结直肠癌分割研究,并提供一个大规模、精细标注的基准,本研究基于团队先前发布的CRC-500数据集,构建了一个全新的CRC-2000数据集。 * 数据来源与规模:包含2000例三维腹部CT扫描影像,所有数据均来自真实临床环境(2008年1月至2020年4月),并已去除患者敏感信息。 * 标注质量:每个病例的结直肠肿瘤区域均由专业医生进行精确像素级标注,并经过另一名专业医生的校准,保证了标注的权威性和一致性。 * 数据特点:除了规模大,CRC-2000还对结直肠癌进行了细粒度分类。更重要的是,与脑肿瘤、多器官分割等任务相比,结直肠肿瘤区域在整幅图像中所占体积比例非常小,这使得分割任务更具挑战性,更能考验模型对微小目标的检测和分割能力。
3. 实验设计与评估流程 研究在四个大规模三维医学图像分割数据集上进行了全面的评估,以验证SegMamba-V2的通用性和有效性。 * 评估数据集: 1. CRC-2000:本研究新建的结直肠癌分割数据集。 2. BraTS2023:包含1251例多模态脑MRI数据,分割目标为全肿瘤、增强肿瘤和肿瘤核心。 3. AIIB2023:包含120例高分辨率CT数据,用于肺纤维化疾病的气道树分割,目标结构细小且复杂。 4. AbdomenAtlas-1.0:包含5195例腹部CT数据,分割目标为主动脉、胆囊、双肾、肝脏、胰腺、下腔静脉、脾脏和胃等九个器官,是目前最大的全标注腹部CT数据集之一。 * 对比方法:涵盖了CNN-based(SegResNet, nnU-Net, UX-Net, MedNeXt)、Transformer-based(UNETR, SwinUNETR, SwinUNETR-v2, nnFormer)以及Mamba-based(U-Mamba-Bot, SegMamba)共三大类十种前沿方法。 * 实现细节:使用PyTorch框架,输入随机裁剪为128x128x128大小,采用交叉熵损失和SGD优化器,训练1000个epoch。应用了包括亮度调整、伽马变换、旋转、缩放、镜像和弹性形变在内的数据增强策略,并在推理时使用了测试时增强技术以确保公平比较和鲁棒性。实验在四块NVIDIA A100 GPU上进行。 * 评估指标:主要使用Dice相似系数和95%豪斯多夫距离。对于气道树分割任务(AIIB2023),额外采用了交并比、检测长度比和检测分支比等更能反映分支连续性和完整性的指标。
四、 主要研究结果 实验结果表明,SegMamba-V2在所有四个数据集上均取得了领先于现有最先进方法的分割性能,验证了其设计的有效性、高效性和通用性。
1. 在AbdomenAtlas-1.0多器官分割上的结果 * Dice分数:SegMamba-V2取得了所有九个器官分割任务中最高的平均Dice分数(86.24%),显著优于所有对比方法。例如,优于其前身SegMamba(85.66%)、表现优异的CNN方法nnU-Net(85.28%)以及Transformer方法SwinUNETR(84.13%)。 * HD95分数:SegMamba-V2的平均HD95分数为17.92,仅次于nnFormer(17.30),优于其他所有方法。这表明SegMamba-V2不仅能实现高重叠度分割,其分割边界与真实标注的几何距离也控制得非常好。
2. 在BraTS2023脑肿瘤分割上的结果 * SegMamba-V2在全肿瘤、增强肿瘤和肿瘤核心三个子任务上均取得了最优的Dice分数,平均Dice达到91.60%,平均HD95为3.23。其性能超越了其前身SegMamba(平均Dice 91.32%, HD95 3.56)以及在该任务上表现强劲的nnU-Net和SwinUNETR-v2。这证明了其在处理多模态、多目标脑肿瘤分割任务上的强大能力。
3. 在AIIB2023气道树分割上的结果 * 气道树分割因其目标极其细小、分支复杂而被认为是极具挑战性的任务。SegMamba-V2在交并比、检测长度比和检测分支比三个指标上均位列第一(分别为88.84%、74.34%、62.91%)。特别是检测长度比和分支比的大幅领先,表明SegMamba-V2能够分割出更连续、更完整的气道分支,这对于临床评估肺部疾病至关重要。
4. 在CRC-2000结直肠癌分割上的结果 * 由于肿瘤区域微小,大多数方法在该数据集上表现不佳。例如,UNETR的Dice分数仅为38.05%。基于Mamba的方法(如SegMamba和U-Mamba)凭借其全局建模能力,取得了明显更好的结果(Dice约56%)。而SegMamba-V2通过其改进的架构,进一步将性能提升至新的水平,获得了57.48%的Dice分数和45.47的HD95分数,均为最优。这验证了HS-Downsampling模块在保留微小目标细节信息,以及TOOM模块在复杂解剖背景下精确定位方面的优势。
5. 消融实验与效率分析 * 模块有效性:消融实验证实,TOOM模块、HS-Downsampling模块和FUE模块均对最终性能有积极贡献。移除其中任何一个模块,性能都会下降。 * 架构选择:实验对比了“全Mamba层”架构和本文的“卷积-Mamba混合”架构。结果显示,在底层高分辨率阶段使用卷积层,高层使用Mamba层的混合架构,在取得更优性能的同时,推理效率更高。这是因为在早期阶段用Mamba处理长序列效率低下,而大核卷积更适合聚合高分辨率局部特征。 * 可视化证据:特征可视化显示,与SegMamba相比,SegMamba-V2在深层特征中能更清晰地聚焦于目标肿瘤区域,表明其具有更强的特征表示能力。 * 效率优势:与基于大核卷积或Transformer的方法相比,SegMamba-V2在训练内存、推理内存和推理时间上均表现出优势,特别是避免了Transformer因自注意力二次复杂度导致的训练困难或内存溢出问题。
五、 研究结论与价值 本研究的结论是,所提出的SegMamba-V2模型为通用三维医学图像分割提供了一个高效且强大的解决方案。通过设计创新的三向空间Mamba块,模型能够从三维医学图像的多个正交平面和方向有效地建模长程全局依赖关系。分层尺度下采样策略的引入,则增强了模型感受野并缓解了下采样中的信息损失。此外,新构建的大规模、细粒度标注的CRC-2000数据集,为结直肠癌分割研究设立了新的基准。
研究的价值主要体现在: 1. 科学价值:首次系统性地将Mamba模型应用于通用三维医学图像分割,并针对三维数据的特性进行了深度定制(三向扫描),为长序列视觉建模提供了新的思路和有效范例。提出的TOOM、HS-Downsampling等模块具有启发性和可扩展性。 2. 应用价值:模型在脑肿瘤、腹部多器官、肺部气道树和结直肠癌等多种具有挑战性的临床分割任务上均达到了最先进的性能,且具有较高的计算效率,展现出强大的临床转化潜力,有望辅助医生提升诊断精度和效率。 3. 社区贡献:公开发布了模型代码和CRC-2000数据集,为相关领域的研究者提供了宝贵的资源和可复现的基线,将有力推动三维医学图像分割特别是结直肠癌相关研究的发展。
六、 研究亮点 1. 新颖的模型架构:提出首个针对三维医学图像特性深度设计的卷积-Mamba混合架构SegMamba-V2,巧妙结合了卷积的局部特征提取效率和Mamba的全局长序列建模能力。 2. 核心技术创新: * 三向正交Mamba模块:创造性地将全局依赖建模从单一平面扩展到三个正交平面,并融合前向、反向、跨组三种扫描方式,极大地丰富了模型对三维空间结构的理解。 * 分层尺度下采样模块:通过多路径、不同感受野的下采样融合,优化了多尺度特征金字塔的构建过程。 3. 挑战性数据集贡献:构建并发布了目前规模最大、标注精细的结直肠癌三维CT分割数据集CRC-2000,其微小目标的特点为分割算法设定了更高难度的基准。 4. 卓越的通用性与性能:在涵盖不同模态(CT/MRI)、不同器官(脑、腹、肺、肠)、不同目标尺度(大器官、小肿瘤、细微气道)的四个大规模数据集上全面领先,充分证明了其作为“通用”分割模型的强大实力和鲁棒性。同时,在保持高性能的前提下,模型在计算效率上相比Transformer类模型具有明显优势。