解锁SAM 2在少样本分割中的潜力

分享自：
解锁SAM 2在少样本分割中的潜力

期刊:Proceedings of the 42nd International Conference on Machine Learning
这篇文档属于类型a，即报告了一项原创研究的学术论文。以下是基于文档内容生成的学术报告：
主要作者与机构
 本研究的作者包括Qianxiong Xu、Lanyun Zhu、Xuanyi Liu、Guosheng Lin、Cheng Long、Ziyue Li和Rui Zhao。他们分别来自以下机构：1s-Lab, Nanyang Technological University；Singapore University of Technology and Design；Peking University；University of Cologne；以及SenseTime Research。该研究发表于2025年的第42届国际机器学习会议（Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada），并收录于PMLR 267期刊。
学术背景
 本研究的主要科学领域是计算机视觉中的Few-Shot Segmentation（FSS，少样本分割）。FSS的目标是通过少量标注样本学习类无关的分割模型，从而能够分割任意类别的对象。然而，传统FSS方法容易在训练过程中过拟合，导致模型无法很好地泛化到未见过的类别。为了解决这一问题，近年来研究者开始利用基础模型（如SAM，Segment Anything Model）的强大能力来简化FSS的学习过程。SAM 2是SAM的扩展版本，支持视频分割，其类无关的匹配能力对FSS具有潜在的应用价值。然而，SAM 2的视频数据中不同帧的前景对象通常是同一对象，而FSS中的查询和支持图像的前景对象往往是不同的，这导致两者的匹配机制不兼容。因此，本研究旨在设计一种方法，充分利用SAM 2的匹配能力，同时解决其与FSS的兼容性问题。
研究流程
 本研究的主要流程包括以下几个步骤：
问题定义与初步实验
 首先，研究者尝试直接将SAM 2应用于FSS，将支持图像的特征编码为支持记忆（support memory），并通过内存注意力机制（memory attention）与查询图像的特征进行匹配和融合。然而，由于SAM 2的匹配机制是基于同一对象的匹配，而FSS中的查询和支持图像的前景对象不同，这种直接应用导致了匹配不兼容的问题。初步实验结果显示，这种方法在Pascal-5i数据集上的平均mIoU（mean Intersection over Union）仅为69.4%，远低于现有FSS方法的性能。
伪提示生成器（Pseudo Prompt Generator, PPG）的设计
 为了解决匹配不兼容的问题，研究者设计了伪提示生成器（PPG）。PPG通过生成伪查询记忆（pseudo query memory），使得匹配机制能够在同一对象之间进行。具体而言，PPG利用DINOv2（一种强大的视觉基础模型）生成查询图像的判别性特征，并通过全局平均池化（global average pooling）生成前景和背景原型（prototypes）。然后，通过计算查询特征与这些原型的余弦相似度，生成前景和判别性（discriminative）先验掩码（prior masks）。这些先验掩码被用作伪提示，用于编码伪查询记忆。
迭代内存优化（Iterative Memory Refinement, IMR）
 由于生成的伪查询记忆可能包含不完整的前景特征和意外的背景特征，研究者进一步设计了迭代内存优化（IMR）模块。IMR通过将前景记忆（fg memory）中的前景特征逐步补充到判别性记忆（disc memory）中，从而丰富判别性记忆中的前景特征。同时，IMR利用支持记忆（support memory）来抑制背景特征的传播。实验结果显示，IMR能够显著提升分割性能，例如在Pascal-5i数据集上的mIoU从78.2%提升至79.6%。
支持校准的内存注意力（Support-Calibrated Memory Attention, SCMA）
 为了进一步抑制伪查询记忆中的背景特征，研究者设计了支持校准的内存注意力（SCMA）模块。SCMA通过计算支持记忆与伪查询记忆之间的余弦相似度，动态调整内存注意力机制中的注意力分数，从而抑制背景特征的融合。实验结果表明，SCMA能够有效减少错误分割，例如在Pascal-5i数据集上的mIoU进一步提升至81.0%。
实验验证
 研究者在Pascal-5i和COCO-20i两个数据集上进行了广泛的实验，验证了所提方法的有效性。实验结果显示，所提出的Few-Shot Segment Anything Model（FSSAM）在1-shot和5-shot设置下均取得了显著的性能提升。例如，在Pascal-5i数据集上，1-shot的mIoU达到了81.0%，比现有最佳基线方法提高了4.2%。
主要结果
 1. 伪提示生成器（PPG）的有效性
 实验结果表明，PPG能够显著提升FSS的性能。例如，在Pascal-5i数据集上，使用PPG后，1-shot的mIoU从69.4%提升至78.2%。
迭代内存优化（IMR）的贡献
 IMR通过补充前景特征，进一步提升了分割性能。例如，在Pascal-5i数据集上，使用IMR后，1-shot的mIoU从78.2%提升至79.6%。
支持校准的内存注意力（SCMA）的作用
 SCMA通过抑制背景特征，进一步提升了分割精度。例如，在Pascal-5i数据集上，使用SCMA后，1-shot的mIoU从79.6%提升至81.0%。
整体性能
 在Pascal-5i和COCO-20i数据集上，FSSAM在1-shot和5-shot设置下均取得了显著的性能提升，分别达到了81.0%和85.4%的mIoU，显著优于现有方法。
结论
 本研究通过设计伪提示生成器（PPG）、迭代内存优化（IMR）和支持校准的内存注意力（SCMA），成功地将SAM 2的匹配能力应用于Few-Shot Segmentation（FSS）任务中，解决了传统FSS方法容易过拟合的问题。实验结果表明，所提出的FSSAM在多个数据集上均取得了显著的性能提升，为FSS领域提供了新的解决方案。
研究亮点
 1. 创新性方法
 本研究首次将SAM 2的匹配能力应用于FSS任务，并通过设计PPG、IMR和SCMA模块，解决了SAM 2与FSS的兼容性问题。
显著性能提升
 在Pascal-5i和COCO-20i数据集上，FSSAM在1-shot和5-shot设置下均取得了显著的性能提升，显著优于现有方法。
广泛的应用价值
 所提出的方法不仅提升了FSS的性能，还为其他计算机视觉任务提供了新的思路，例如视频分割和图像分类。
其他有价值的内容
 本研究还探讨了不同模型大小对性能的影响，并发现使用较小的模型（如SAM 2-s和DINOv2-b）能够在性能和计算成本之间取得良好的平衡。此外，研究者还进行了误差条评估和多轮测试，验证了FSSAM的鲁棒性和稳定性。
这篇报告详细介绍了研究的背景、方法、实验结果及其意义，为相关领域的研究者提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问