分享自:

Segment Anything:一种用于图像分割的新任务、模型和数据集

期刊:ICCVDOI:10.1109/ICCV.2023.004015

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


Meta AI研究团队发布图像分割基础模型SAM及十亿级掩码数据集SA-1B

作者与机构
本研究由Meta AI Research(FAIR团队)的Alexander Kirillov、Eric Mintun、NikhiLa Ravi等共同完成,其中Alexander Kirillov与Piotr Dollár为方向负责人。论文以《Segment Anything》为题发表于ICCV 2023会议,并同步公开在arXiv预印本平台(arXiv:2304.02643)。


学术背景
研究领域与动机
研究聚焦计算机视觉中的图像分割(image segmentation)任务。当前自然语言处理(NLP)领域已通过大规模预训练模型(如GPT-3)实现零样本(zero-shot)泛化能力,但计算机视觉领域的分割任务仍依赖针对特定任务的标注数据和模型微调。本研究旨在构建首个图像分割的基础模型(foundation model),通过提示工程(prompt engineering)实现跨任务、跨数据分布的零样本迁移。

关键挑战
1. 任务定义:需设计支持灵活提示(如点、框、文本)的分割任务框架;
2. 数据稀缺:现有分割数据集规模有限(如COCO仅含30万掩码),难以支撑通用模型训练;
3. 模型架构:需平衡实时性与多掩码预测能力以处理模糊提示。


研究流程与方法
1. 可提示分割任务设计(Task)
- 任务目标:模型需根据任意提示(如点、框、文本)生成有效掩码,即使提示存在歧义(如点位于重叠物体上)。
- 预训练策略:模拟交互式分割流程,对每个训练样本随机生成几何提示(如点、框),并计算预测掩码与真实掩码的损失。
- 零样本迁移:通过提示工程适配下游任务(如将目标检测框作为提示实现实例分割)。

2. 模型架构(Model)
提出Segment Anything Model(SAM),包含三个核心组件:
- 图像编码器:基于MAE预训练的ViT-H(Vision Transformer)架构,处理高分辨率输入;
- 提示编码器:分别处理稀疏提示(点/框/文本)和密集提示(掩码),文本提示采用CLIP的文本编码器;
- 轻量级掩码解码器:通过改进的Transformer解码块融合图像与提示嵌入,动态预测掩码。
- 创新设计
- 歧义感知:单提示预测多掩码(最多3个),通过最小损失反向传播训练;
- 实时性:50ms内完成单次预测(浏览器CPU环境)。

3. 数据引擎与数据集构建(Data)
采用三阶段数据引擎(data engine)构建SA-1B数据集
- 人工辅助阶段:专业标注员使用SAM交互工具标注120K图像,生成430万掩码;
- 半自动阶段:SAM自动生成高置信度掩码,标注员补充剩余物体,新增590万掩码;
- 全自动阶段:在1100万图像上以32×32网格点提示SAM,生成11亿掩码,通过非极大抑制(NMS)过滤重复结果。
- 数据集特性
- 规模:11亿掩码(99.1%自动生成)、1100万图像,覆盖多样场景;
- 质量:人工评估显示94%自动掩码与人工修正掩码的IoU>90%。


主要结果
1. 零样本单点分割评估
在23个跨领域数据集(如Cityscapes、LVIS)上测试:
- SAM以单点提示的mIoU在16/23数据集上优于最优基线RITM,最高提升47%;
- 人工评分(1-10分)显示SAM掩码质量显著高于基线(平均7-9分,符合“微小误差”标准)。

2. 零样本文本到掩码
通过CLIP图像嵌入对齐文本嵌入,SAM实现自由文本提示分割(如“海狸牙齿格栅”)。定性实验显示,结合点提示可修正文本歧义案例。

3. 下游任务泛化
通过提示工程,SAM在边缘检测、目标提议生成等任务中表现接近或超越全监督模型,验证其作为基础模型的潜力。


结论与价值
科学意义
1. 任务范式革新:首次将提示工程引入图像分割,实现单一模型解决多任务;
2. 数据集突破:SA-1B规模超越现有数据集400倍,推动分割基础模型研究;
3. 模型通用性:SAM的零样本能力为少样本学习、跨模态对齐提供新思路。

应用前景
- 自动标注:降低数据标注成本;
- 可组合系统:与检测器、AR设备等集成,扩展至3D重建、交互式编辑等场景。


研究亮点
1. 全流程创新:任务-模型-数据三要素协同设计,形成完整方法论;
2. 数据引擎技术:通过模型迭代闭环解决数据稀缺问题;
3. 开放性与伦理:公开模型(Apache 2.0协议)与数据集,包含隐私保护措施(如人脸模糊化)。

局限性
- 小结构分割精度不足;
- 文本提示鲁棒性待提升;
- 实时性依赖轻量解码器,重型图像编码器仍存在计算开销。


此研究为计算机视觉基础模型的发展树立了新标杆,其代码、模型及数据集已发布于项目官网

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com