本研究的核心作者包括Zeyu Wang、Chen Li、Huiying Xu、Xinzhong Zhu(通讯作者)和Hongbo Li,分别来自浙江师范大学计算机科学与技术学院、杭州人工智能研究院以及北京极智嘉科技有限公司。研究成果发表于2025年第三十九届人工智能促进协会会议(AAAI-25),论文标题为《Mamba YOLO: A Simple Baseline for Object Detection with State Space Model》。
研究领域与动机
目标检测是计算机视觉的核心任务之一,YOLO系列因其高效的实时性能成为行业标杆。然而,基于Transformer的检测器(如DETR系列)虽通过自注意力机制(self-attention)提升了全局建模能力,但其二次计算复杂度(quadratic complexity)导致计算负担激增。近年来,研究者尝试结合CNN与Transformer的混合架构(如MobileViT)以平衡性能与速度,但效果有限。状态空间模型(State Space Model, SSM)因其线性复杂度和长序列建模优势(如Mamba)为这一问题提供了新思路。
研究目标
本研究提出Mamba YOLO,首次将SSM引入YOLO框架,旨在解决以下问题:
1. 通过线性复杂度的SSM替代Transformer的二次复杂度自注意力机制;
2. 设计无需大规模预训练的轻量级架构,适应实时检测需求;
3. 增强SSM在图像局部依赖建模中的不足,提升小目标检测性能。
Mamba YOLO由ODMamba主干网络和PAFPN(Path Aggregation Feature Pyramid Network)颈部网络构成(图2)。
ODMamba主干网络
ODSSBlock核心模块(图3)
该模块整合SSM与局部特征增强设计:
科学价值:
1. 首次将SSM应用于实时目标检测,证明线性复杂度模型在视觉任务中的可行性;
2. 提出的RG Block通过门控机制与残差设计,解决了SSM在局部建模中的固有缺陷。
应用价值:
- 为边缘设备(如无人机、自动驾驶)提供高精度、低延迟的检测方案;
- 代码开源(GitHub),推动社区在轻量级模型上的探索。
(注:术语对照:SSM=状态空间模型,mAP=平均精度,FPN=特征金字塔网络,dwconv=深度可分离卷积)