IEEE Transactions on Pattern Analysis and Machine Intelligence 发表了一篇题为《Salient Object Detection in the Deep Learning Era: An In-depth Survey》的综述文章,作者包括 Wenguan Wang(ETH Zurich)、Qiuxia Lai(The Chinese University of Hong Kong)、Huazhu Fu(Inception Institute of Artificial Intelligence, UAE)、Jianbing Shen(Beijing Institute of Technology, China)、Haibin Ling(Temple University, USA)和 Ruigang Yang(University of Kentucky, USA)。本文为学术界提供了一篇内容详实、覆盖面广的深度学习时代显著目标检测(Salient Object Detection, SOD)综述论文,旨在回顾该领域的最新进展,分析现有数据集及评估指标,探讨未解决的问题,并提出未来的研究方向。本文发表于 IEEE Transactions on Pattern Analysis and Machine Intelligence,具体出版日期未明。
显著目标检测(SOD)是计算机视觉领域的一项重要研究方向,其目标在于从输入图像中检测出能够吸引人类注意力的显著目标区域。自深度学习技术复兴以来,该领域在显著性目标检测技术上实现了快速发展。传统的 SOD 方法通常基于低层次特征和启发式算法,而深度学习技术的引入(起始于2015年)为该领域带来了颠覆性变化,研究成果不仅在目标检测、自监督视频对象分割、语义分割等计算机视觉核心任务中表现优异,同时还在图像裁剪、非真实感渲染以及机器人领域中显示了应用潜力。
随着相关研究的不断深入,已有大量论文和方法涌现出来,但这些研究在算法分类、数据集、评估指标、模型鲁棒性等方面的系统总结依然较为稀缺。本文的目标是通过系统综述和实验分析,为研究人员提供对这一领域的深入理解,并提出若干尚待解决的问题以及潜在的发展方向。
本文首先依据网络架构、监督方式、学习范式以及目标/实例级别等对现有的深度学习 SOD 模型进行了分类,并在每个分类下详述了典型模型的工作原理和核心贡献。
网络架构:
监督方式:
学习范式:
目标与实例级别:
文章系统梳理了近年来发布的主要 SOD 数据集(如 MSRA10K、DUT-OMRON、ECSSD 等),并分析了每个数据集的规模、物体类型、多样性及标注细节。同时提出: - 现代数据集特点:规模更大,场景复杂化,去除中心偏差,标注精确到像素,可捕捉细致的显著目标轮廓。 - 评估指标详述:结合经典的 Precision-Recall(PR)曲线、Mean Absolute Error(MAE)等,还提出了注重结构性视觉信息的新指标,如 S-Measure 和 E-Measure。
本文在六个流行数据集(如 DUT-OMRON 和 PASCAL-S)上,对44个系列代表性深度学习 SOD 模型及3个非深度模型进行了系统性能评估(包含最大 F-Measure、S-Measure 和 MAE 指标)。结果显示: - 深度学习模型显著优于传统启发式方法。 - BASNet、PiCANet 和 PoolNet 等新模型在多个指标上占据优势。 - 数据集如 ECSSD 与 HKU-IS 的性能趋于饱和,强调未来需要更复杂和多样化的测试环境。
为深入探讨模型性能,文章构建了一个带注释属性的新基准数据集,包含1,800幅图像,覆盖不同物体类别(如动物、人类)和复杂场景条件(如重叠、遮挡、小目标等)。结果揭示: - 深度模型善于捕获语义丰富的目标(如动物),但在检测复杂场景(如室内环境)和小目标时仍有劣势。 - 基于传统方法的模型无法有效处理人类和具有显著语义的目标。
本文是显著目标检测领域的一篇里程碑式文章,其贡献主要体现在以下几个方面: 1. 综合性总结:详细梳理和分类了显著目标检测的经典算法和最新进展,为研究者提供了清晰的知识图谱。 2. 性能评估基准:首次全面基准评测了44个深度模型及其在六大数据集上的性能。 3. 实用工具与资源:公开实验代码、评估方法以及属性标注数据集以促进行业统一。 4. 开放问题和未来方向:如模型鲁棒性、对抗攻击以及数据集泛化能力研究的首次探讨,启发性地指出了待解决的挑战。
本文通过建构全景视角,为显著目标检测领域树立了标准化的评估方法和未来研究指引,同时也强调了深度学习与人类知识融合的潜力,具有极高的学术与应用价值。