分享自:

Mamba YOLO:基于状态空间模型的实时目标检测简单基线

期刊:the thirty-ninth aaai conference on artificial intelligence (aaai-25)

基于状态空间模型的实时目标检测新基准:Mamba YOLO 研究报告

作者与发表信息

本研究的核心作者包括Zeyu Wang、Chen Li、Huiying Xu、Xinzhong Zhu(通讯作者)和Hongbo Li,分别来自浙江师范大学计算机科学与技术学院、杭州人工智能研究院以及北京极智嘉科技有限公司。研究成果发表于2025年第三十九届人工智能促进协会会议(AAAI-25),论文标题为《Mamba YOLO: A Simple Baseline for Object Detection with State Space Model》。

学术背景

研究领域与动机
目标检测是计算机视觉的核心任务之一,YOLO系列因其高效的实时性能成为行业标杆。然而,基于Transformer的检测器(如DETR系列)虽通过自注意力机制(self-attention)提升了全局建模能力,但其二次计算复杂度(quadratic complexity)导致计算负担激增。近年来,研究者尝试结合CNN与Transformer的混合架构(如MobileViT)以平衡性能与速度,但效果有限。状态空间模型(State Space Model, SSM)因其线性复杂度和长序列建模优势(如Mamba)为这一问题提供了新思路。

研究目标
本研究提出Mamba YOLO,首次将SSM引入YOLO框架,旨在解决以下问题:
1. 通过线性复杂度的SSM替代Transformer的二次复杂度自注意力机制;
2. 设计无需大规模预训练的轻量级架构,适应实时检测需求;
3. 增强SSM在图像局部依赖建模中的不足,提升小目标检测性能。

研究方法与流程

1. 核心架构设计

Mamba YOLO由ODMamba主干网络PAFPN(Path Aggregation Feature Pyramid Network)颈部网络构成(图2)。

  • ODMamba主干网络

    • Simple Stem模块:采用两次步长为2的3×3卷积(非传统ViT的4×4非重叠分块),平衡效率与特征保留能力。
    • Vision Clue Merge模块:创新性提出替代传统卷积下采样的方法:
    • 移除归一化层(norm);
    • 分割特征图并拼接至通道维度;
    • 使用4×压缩的点卷积(pointwise convolution)降维,保留SSM所需的视觉线索。
  • ODSSBlock核心模块(图3)
    该模块整合SSM与局部特征增强设计:

    1. SS2D(Selective-Scan-2D):通过四方向扫描(上下、左右、对角线)扩展感受野,合并全局特征;
    2. RG Block(Residual Gated Block)
      • 分支1:深度可分离卷积(depthwise conv)提取局部特征;
      • 分支2:线性层捕获全局特征;
      • 通过门控机制(gated multiplication)和残差连接融合多尺度信息,公式如下:
        [ y(x) = \text{GELU}(\text{dwconv}(x) \oplus x), \quad f{rg} = t{\text{fusion}}(r{\text{global}} \odot y(r{\text{local}})) \oplus f_a’ ]

2. 实验设置

  • 数据集:MS COCO,涵盖80类物体检测任务。
  • 训练配置:8块NVIDIA H800 GPU,FP16精度,TensorRT 8.4.3加速。
  • 模型变体:Tiny(5.8M参数)、Base(19.1M)、Large(57.6M),分别针对不同计算需求。

主要结果

性能对比(表1)

  • Mamba YOLO-Tiny
    • 在4090 GPU上推理速度1.5ms,mAP(平均精度)44.5%,较YOLOv8-n提升7.2%,参数量减少48%。
    • 显著优于PPYOLOE-s(+1.5% mAP)和YOLO-MS-xs(+1.1% mAP)。
  • Mamba YOLO-Base
    • mAP 49.1%,超越Gold-YOLO-m 3.7%,推理速度2.2ms(比PPYOLOE-m快1.8ms)。
  • 大模型场景:Mamba YOLO-Large与DINO-R50相比,内存占用线性增长(图4),640×640分辨率下mAP 52.1%,速度提升12倍。

消融实验(表2-4)

  1. 模块有效性
    • 单独使用SS2D或RG Block可提升mAP 5.8%和0.6%,组合后达44.5%。
    • Vision Clue Merge较传统卷积下采样提升2.9% mAP。
  2. RG Block设计(表3):
    • 门控机制(Gated MLP)比普通卷积MLP提升1.5% mAP;
    • 残差连接进一步优化梯度回流,降低计算成本。
  3. 结构配置
    • 主干网络ODSSBlock重复次数[3,6,6,3]为最优(对比[9,3,3,3]等冗余设计);
    • 颈部网络使用SSM可提升1.6% mAP,但牺牲1.8ms延迟。

结论与价值

科学价值
1. 首次将SSM应用于实时目标检测,证明线性复杂度模型在视觉任务中的可行性;
2. 提出的RG Block通过门控机制与残差设计,解决了SSM在局部建模中的固有缺陷。

应用价值
- 为边缘设备(如无人机、自动驾驶)提供高精度、低延迟的检测方案;
- 代码开源(GitHub),推动社区在轻量级模型上的探索。

研究亮点

  1. 创新架构:ODSSBlock结合SS2D全局扫描与RG Block局部增强,无需预训练即可达到SOTA;
  2. 工程优化:Vision Clue Merge保留视觉线索,较传统下采样提升效率;
  3. 多场景适配:Tiny/Large系列覆盖从移动端到服务器的全场景需求。

其他贡献

  • 可视化对比(图5):Mamba YOLO在遮挡、小目标等复杂场景中表现优于DINO和Gold-YOLO;
  • 理论突破:通过离散化状态方程(公式3-4),将连续SSM适配至深度学习框架,为后续研究提供范式。

(注:术语对照:SSM=状态空间模型,mAP=平均精度,FPN=特征金字塔网络,dwconv=深度可分离卷积)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com