PC-VMamba：用于医学图像中小目标分割的位置与通道引导视觉Mamba

分享自：
PC-VMamba：用于医学图像中小目标分割的位置与通道引导视觉Mamba

生物医学工程
信息科学
医学
计算机科学
人工智能
期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2026.110625
【点击此处】阅读全文、收藏及针对性提问
基于PC-VMamba的医学图像小目标分割：一项新型深度学习架构的研究报告
一、 研究团队与发表信息
本研究的主要作者为Xuyang Wei、Jinke Wang、Zhengtong Liu和Quanxu Ge。他们分别来自哈尔滨理工大学威海研究院、电子科技大学以及山东大学附属威海市立医院。该项研究成果以题为“PC-VMamba: Position and Channel-guided Vision Mamba for Small Object Segmentation in Medical Images”的论文形式，发表于国际期刊 Biomedical Signal Processing and Control 第123卷（2026年），文章编号110625。
二、 学术背景与研究目的
本研究属于医学图像分析与计算机视觉的交叉领域，具体聚焦于医学图像分割任务，尤其是其中极具挑战性的小目标（如微小病灶）分割问题。在临床实践中，对医学图像（如超声、皮肤镜、CT影像）中的微小病灶进行自动、精确的分割，对于疾病的超早期诊断和及时治疗至关重要。然而，现有方法在处理此类任务时仍面临诸多挑战：基于卷积神经网络（CNN）的方法（如U-Net及其变体）受限于卷积操作的局部感受野，难以有效建模图像中的长程依赖关系；而基于Transformer的方法（如ViT, Swin Transformer）虽然具备强大的全局上下文建模能力，但其自注意力机制的二次计算复杂度（O(N²)）导致模型参数量巨大，容易在小规模医学数据集上过拟合，且计算开销高昂。
2023年提出的Mamba架构及其视觉变体Vision Mamba（ViM）为解决上述问题提供了新思路。Mamba基于结构化状态空间模型（SSM），能够以线性计算复杂度（O(N)）实现序列的长程依赖建模，在效率上相比Transformer具有显著优势。然而，原始的视觉Mamba模型在捕捉局部细节和复杂空间结构方面仍存在不足，特别是在处理边界模糊、纹理复杂的医学小目标时，其分割精度和泛化能力有待提升。
为此，本研究旨在解决以下核心问题：如何在不牺牲Mamba高效计算优势的前提下，增强其对于医学图像中微小、边界模糊目标的特征感知与分割能力？具体研究目标包括：1）设计一种能够同时建模空间位置与通道维度关键信息的机制，以增强模型对局部细节和全局结构的理解；2）提出一种更有效的编码器-解码器间特征融合策略，以弥合高层语义特征与低层细节特征之间的语义鸿沟；3）构建一个兼具高精度、强泛化能力和计算效率的新型分割网络，并在多个公开医学图像数据集上验证其有效性。
三、 研究方法与详细流程
本研究提出了一种名为PC-VMamba（位置与通道引导的视觉Mamba）的新型U型网络架构。整个研究流程主要包括网络架构设计、损失函数与评估指标设定、实验数据集准备与预处理、模型训练与优化、以及广泛的对比与消融实验验证。
1. PC-VMamba网络架构设计 PC-VMamba的整体架构采用不对称的编码器-解码器结构，核心创新在于引入了PCM层和注意力引导的跳跃连接策略。 * Patch Embedding层：输入图像首先被分割为不重叠的4x4图像块，并嵌入为初始特征图。 * 编码器：由四个阶段组成，每个阶段包含两个连续的PC-VMamba块和一个Patch Merging层。PC-VMamba块是模型的核心，其关键组件是PCM层。 * PCM层：这是本研究的关键创新模块。它集成了位置注意力模块和通道注意力模块，并引入了可学习的跨扫描策略。 * 可学习跨扫描：将特征图沿四个方向（上、下、左、右）进行扫描，形成四条并行处理路径。这些扫描路径的权重是可学习的，使得模型能够通过反向传播自动聚焦于关键解剖区域，实现更全面的空间上下文特征建模。 * 双注意力机制： * 位置注意力模块：通过计算特征图任意两个位置之间的相似度，生成空间注意力图。它使模型能够聚合全局上下文信息，让语义相似的区域相互促进，从而增强对空间结构和边界的感知能力。 * 通道注意力模块：通过计算通道间的相关性，生成通道注意力图。它强调特征通道间的相互依赖关系，增强模型在语义维度上的特征表达能力。 PCM层通过融合来自四个扫描分支并经过双注意力机制提炼的特征，显著提升了模型对医学图像复杂结构和形态的特征建模能力。 * 解码器：与编码器镜像对称，每个阶段包含一个Patch Expanding层和两个PC-VMamba块，逐步恢复空间分辨率并减少通道数。 * 注意力引导的跳跃连接：不同于传统U-Net的直接拼接跳跃连接，本研究在编码器与解码器对应层之间建立了多层跳跃连接，并将双注意力机制集成到跳跃路径中。这种设计能够更有效地桥接语义鸿沟，抑制冗余噪声，显著增强了对小目标病灶细粒度细节的恢复能力。 * 最终投影层：#使用1x1卷积压缩通道，并结合Softmax层生成#像素级分割预测图。
2. 损失函数与评估指标 为了应对医学图像中常见的类别不平衡问题（如病灶区域远小于背景），研究采用了交叉熵损失和Dice损失的组合作为模型的优化目标。这种组合既能保证稳定的像素级分类监督，又能通过优化预测区域与真实区域的重叠度来提升小目标的分割性能。评估阶段采用了八项指标进行定量分析，包括Dice系数、敏感性、特异性、准确率、马修斯相关系数、95%豪斯多夫距离、ROC曲线下面积和平均精度，以全面衡量模型的分割精度、边界贴合度及鲁棒性。
3. 实验数据集与预处理 研究使用了六个公开的医学图像分割数据集来验证模型的有效性和泛化能力。 * 基准训练与测试数据集：包括Busi（780张乳腺超声图像，647张含肿瘤）、ISIC2017（2750张皮肤镜图像）和LUNA16（来自1018例CT扫描的1186个肺结节，转换为2D切片进行处理）。这三个数据集涵盖了不同的器官和病灶类型。 * 泛化实验数据集：包括Kvasir-SEG（1000张息肉图像）和CVC-ClinicDB（612张结肠镜图像）两个息肉数据集，以及REFUGE2（1600张视网膜眼底图像）青光眼评估数据集。 所有数据集按7:2:1的比例划分为训练集、验证集和测试集。对于2D图像（如ISIC2017, Busi），预处理包括灰度转换、归一化、对比度受限自适应直方图均衡化（CLAHE）和拉普拉斯高斯（LoG）边缘增强。对于3D的LUNA16数据集，首先根据结节坐标生成金标准标签，然后将3D CT图像切片为2D图像，并围绕结节中心裁剪为96x96像素，以去除无关组织的影响并减少计算压力。在训练阶段，还采用了随机水平/垂直翻转和随机旋转（±15°）等数据增强策略。
4. 实验实施与对比方案 实验在配置有NVIDIA RTX 3090 GPU的服务器上进行，使用PyTorch框架。模型采用预训练的VMamba-Tiny权重初始化，使用AdamW优化器，初始学习率为0.0003，并采用余弦退火策略，批量大小为16，训练500个周期。为了全面评估PC-VMamba，研究进行了以下实验： * 消融实验：在ISIC2017数据集上，逐步验证PAM、CAM、注意力引导跳跃连接以及不同损失函数组合对模型性能的贡献。 * 与经典模型对比：在三个基准数据集上，与复现的CNN-based（U-Net）、Transformer-based（TransUNet, SwinUNet）和Mamba-based（LocalMamba, LocalVMamba）模型进行性能对比。 * 与先进方法对比：将PC-VMamba与文献中报道的最新方法（如UTNetV2, TransFuse, MA-UNet, VM-UNet, HC-Mamba等）在相同数据集上的指标进行对比。 * 复杂度分析：对比不同模型的参数量、浮点运算次数和推理时间。 * 泛化验证：在未见过的息肉和眼底图像数据集上直接测试训练好的模型，评估其跨数据集、跨疾病的泛化能力。 * 可解释性分析：使用Score-CAM生成热力图，可视化模型关注的区域，验证其决策与病灶区域的相关性。
四、 主要研究结果
1. 消融实验结果 在ISIC2017数据集上的消融实验清晰地证明了各组件设计的有效性。 * 结构组件：从基线模型（A1）开始，逐步引入PAM（A2）、CAM（A3）、双注意力（A4）和注意力跳跃连接（A5）。结果显示，每个组件的加入都带来了性能提升。最终，包含全部组件的完整PC-VMamba模型（A5）取得了最佳性能，Dice系数达到87.84%，HD95降至11.42，显著优于基线。这表明PAM和CAM在空间和通道维度上具有互补性，而注意力跳跃连接能有效融合多尺度特征。 * 损失函数：对比不同损失函数组合发现，交叉熵损失与Dice损失的组合（B4）取得了最优的综合性能（Dice: 89.61%, Acc: 96.92%），优于单独使用任何一种损失或其他组合（如Dice+Focal Loss）。这验证了该组合在平衡像素级分类精度和区域重叠度方面的优势。 * ROC与PR曲线：完整模型在ROC曲线下面积（AUC）和PR曲线平均精度（mAP）上均达到最高值（分别为0.978和0.944），进一步证实了其优越性。
2. 与经典及先进方法对比结果 * 基准数据集性能：在ISIC2017、Busi和LUNA16三个数据集上，PC-VMamba在绝大多数评估指标上均优于所有对比的经典模型（U-Net, TransUNet, SwinUNet, LocalMamba, LocalVMamba）。例如，在ISIC2017上，PC-VMamba的Dice系数（89.61%）和准确率（96.92%）均为最高，且HD95（10.03）最低，表明其分割结果与金标准边界最接近。在Busi和LUNA16上也观察到类似的优势。 * 与SOTA方法对比：与文献中报告的最新方法相比，PC-VMamba在ISIC2017和Busi数据集上的Dice和Acc指标也表现优异，证明了其性能达到了先进水平。 * 可视化结果：定性分析显示，PC-VMamba生成的分割掩码在病变轮廓和边界细节上更接近真实标签，对于边界模糊、形状不规则的小目标，其分割结果更完整、更精确，误报和漏报区域更少。
3. 模型复杂度与效率 PC-VMamba在保持高性能的同时，展现了优异的计算效率。在ISIC2017数据集上，其参数量为22.38M，浮点运算量仅为4.64G，显著低于U-Net（54.74G）和TransUNet（29.13G）。其单张图像GPU推理时间仅为15.31毫秒，远快于对比模型。这得益于Mamba#核心的线性计算复杂度，以及将计算密集的双注意力模块仅应用于下采样后的低分辨率特征图上的策略设计。
4. 泛化能力验证结果 在未参与训练的息肉数据集（Kvasir, CVC-ClinicDB）和眼底数据集（REFUGE2）上，PC-VMamba同样取得了领先或极具竞争力的性能。例如，在CVC-ClinicDB上Dice达到92.65%，在REFUGE2上Dice达到90.73%。这充分证明了该模型强大的跨数据集、跨病灶类型的泛化能力，能够有效处理息肉、眼底视盘/杯等不同医学图像中的小目标分割问题。
5. 可解释性分析 Score-CAM可视化热图显示，PC-VMamba模型能够将注意力高度集中在病变区域，而背景区域激活较弱，且激活区域与病变边界大致吻合。这表明模型通过学习，确实能够聚焦于与分割任务最相关的图像区域。
五、 研究结论与价值
本研究成功提出并验证了PC-VMamba，一种新型的、高效的医学图像小目标分割框架。该框架的核心贡献在于：1）创新性地将位置注意力与通道注意力机制融合，构建了PCM层，并结合可学习的跨扫描策略，增强了模型对全局上下文和局部细节的联合建模能力；2）设计了注意力引导的跳跃连接，有效促进了编码器与解码器间多层次特征的融合，缓解了细节信息丢失问题。
实验结果表明，PC-VMamba在皮肤病变、乳腺肿瘤、肺结节、息肉和眼底图像等多种医学图像小目标分割任务上，均能取得优于或媲美当前先进方法的精度，同时保持了较低的参数量和计算复杂度，具备良好的部署潜力。该研究为克服现有CNN和Transformer模型在医学图像分割中面临的效率与精度权衡难题提供了新的解决方案，推动了基于状态空间模型的视觉方法在医学图像分析领域的应用。
六、 研究亮点
架构创新：首次在视觉Mamba框架中系统性地集成了双注意力机制（位置+通道）和可学习的跨扫描策略，形成了独特的PCM层，显著提升了模型对医学图像复杂结构的特征提取能力。
高效的细节融合：提出的注意力引导跳跃连接，并非简单特征拼接，而是通过注意力机制对跳跃特征进行筛选和增强，更有效地桥接了语义鸿沟，提升了小目标边界的恢复精度。
优异的性能-效率平衡：在多个公开数据集上实现了SOTA或极具竞争力的分割精度，同时模型参数量和计算开销远低于典型的Transformer模型，甚至低于一些CNN模型，展现了出色的实用价值。
强大的泛化能力：模型在训练集分布外的息肉和眼底数据集上表现优异，证明了其对于不同成像模态、不同解剖结构的小目标分割任务具有良好的泛化性和鲁棒性。
全面的实验验证：通过详尽的消融实验、与多种基线模型的对比、复杂度分析、泛化测试和可解释性分析，为模型的有效性提供了坚实、多维度的证据。
七、 其他有价值内容与未来展望
论文在讨论部分也坦诚指出了当前工作的局限性：1）PC-VMamba目前是基于2D切片进行处理，无法捕获3D医学数据中固有的切片间空间连续性和体积结构信息；2）Patch Merging操作和可学习跨扫描机制的全局平滑效应，可能导致对极其微小或对比度极弱病灶的敏感性略有下降；3）PCM层中的扫描策略在训练后是固定的，缺乏对不同成像条件和领域偏移的动态适应性。
针对这些局限，作者提出了明确的未来工作方向：1）探索PCM层中更自适应的扫描选择机制；2）引入针对临床噪声的对抗性训练增强方法；3）集成高分辨率、无跨步的特征保留分支，以在平滑操作前显式保护细微纹理；4）最重要且最具挑战性的，是将当前的2D框架升级为真正的3D PC-VMamba架构，以充分利用体积上下文和空间连续性，服务于更复杂的3D医学图像诊断。
本研究不仅提出了一个当前有效的2D小目标分割方案，更为未来开发适用于三维医学影像分析的、高效且强大的Mamba类模型奠定了重要的理论基础并指明了技术路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问