基于先验驱动的边缘特征增强网络提升小样本语义分割性能
提升小样本语义分割的新方法——基于先验的边缘特征增强网络
在人工智能领域,语义分割(semantic segmentation)是计算机视觉中的一项核心技术,其目的是为图像中的每个像素赋予语义类别标签。然而,传统的语义分割方法依赖大量的标注数据进行训练,这在实际应用中局限于标注样本数据不足的场景。例如,医学影像分析和自动驾驶中,需要对少数数据类别进行分割,获取精确的分割结果。在此背景下,小样本语义分割(Few-Shot Semantic Segmentation, 简称FSS)作为一种新兴技术得到了研究者的广泛关注,旨在在少量标注样本的条件下实现高质量的语义分割。
然而,与普通语义分割模型相比,小样本语义分割在目标边界预测的准确性上仍然表现不足。原因在于,当样本极其有限时,模型从查询(query)图像中提取出的特征往往难以获取足够的细节信息,从而无法有效关注目标的边界区域。基于此,本文提出了一种基于先验的边缘特征增强网络(Prior-Driven Edge Feature Enhancement Network,简称PDEFE),通过利用对象边缘边界的先验信息来增强查询特征,从而提升目标分割的精准度。
本文由北京交通大学(Beijing Jiaotong University)的学者Jingkai Ma、Shuang Bai 和Wenchao Pan撰写,发表于《IEEE Transactions on Artificial Intelligence》2025年1月刊。这篇文章引起了学术界的广泛关注,提出了一种解决少样本语义分割边界问题的新方法,提供了创新性的思考与成果。
研究背景与问题
语义分割技术近年来因深度学习的快速发展而获得了巨大进步,包括经典的全卷积网络(Fully Convolutional Networks, FCNs)、DeepLab和UNet等模型。然而,这类方法严重依赖大量标注数据进行训练,导致其在数据稀缺场景下的适用性显著降低。为了应对这一挑战,小样本语义分割(FSS)技术应运而生。
当前主流的小样本语义分割方法主要基于元学习(meta-learning)范式,研究集中在两类方向:(1) 基于原型的(prototype-based)方法,通过支持样本(support images)的特征生成类别原型,并与查询图像特征进行匹配;(2) 基于空间关联(spatial correlation-based)的方法,探索支持图像和查询图像特征间的空间关系。然而,无论是原型方法还是空间关联方法,在少样本场景下,目标边界的细节信息提取能力仍然有限,导致边界分割精度不高。
为了解决上述问题,已有研究尝试引入边缘信息以提升分割精度。例如,Mceenet通过边缘辅助网络强化查询特征,但其直接提取查询图像中的所有边缘,包括背景边缘,可能干扰目标分割结果。与之相比,本文提出的PDEFE方法不仅有效抑制了背景边缘的干扰,还能提供更准确的目标边缘信息。
方法与工作流程
1. 总体框架概述
PDEFE模型包含两大核心模块: - 边缘特征增强模块(Edge Feature Enhancement Module,EFEM):利用目标的边缘信息增强查询特征的边界区域。 - 边缘先验掩码生成器(Edge Prior Mask Generator,EPMG):基于图像梯度信息生成边缘先验掩码,指导模型更加关注目标的边缘细节。
整套流程被集成到一个经典的元学习框架(例如PFENet)中。支持和查询图像的中层和高层特征分别通过骨干网络(如ResNet)提取,并结合EFEM和EPMG模块,最终通过解码器生成高精度的分割结果。
2. 边缘特征增强模块(EFEM)
EFEM的核心目标是通过利用目标的边缘信息,增强查询特征的边界细节部分。具体而言:
- 边缘信息提取:使用预训练的Holistically-Nested Edge Detection(HED)模型提取查询图像的二值化边缘掩码(Edge Mask)。
- 前景边缘过滤:由于边缘提取可能包含背景干扰,为了针对性提取前景边缘,EFEM通过分类头(共享解码器参数)生成粗分割结果,用于过滤掉无关的背景边缘。
- 多尺度融合:引入空洞空间金字塔池化(ASPP)模块,从多尺度查询特征中提取丰富的目标边缘信息。
- 边缘增强:通过卷积操作将提取的边缘信息融合到查询特征中,从而生成增强后的查询特征,进一步提升边界区域的细节表达。
这一模块着重解决因少样本导致的边界信息提取不充分的问题。
3. 边缘先验掩码生成器(EPMG)
由于高层特征存在语义丰富但细节不足的问题,EPMG基于图像的梯度信息生成边缘先验掩码(Edge Prior Mask),从而提供额外的目标边缘细节用于指导模型分割。其工作流程包括:
- 梯度信息提取:利用Sobel算子计算支持图像和查询图像的x和y方向梯度,其中支持图像的梯度是基于标注掩码生成的,以消除背景干扰。
- 边缘相似度计算:设计边缘相似度计算器(Edge Similarity Calculator, ESC),逐像素地通过梯度相似度,生成查询图像的边缘相关性掩码。
- 掩码归一化:将生成的相关性掩码归一化为边缘先验掩码(EPM),该掩码通过与其他特征联合指导模型更精确地分割目标区域。
这一模块的创新之处在于利用梯度信息解析目标边缘,从而弥补传统方法难以捕捉细节的不足。
实验与结果
1. 数据集与评价指标
本文采用两个标准小样本分割数据集进行测试,分别为Pascal-5i和COCO-20i。评价指标包括: - 平均交并比(Mean Intersection Over Union, mIoU); - 前景-背景交并比(Foreground-Background IoU, FB-IoU)。
2. 实验结果
Pascal-5i数据集
在一对比五张样本的分割设置下,PDEFE方法相比于主流方法(如Mceenet和CFENet)都有显著的性能提升。例如,在ResNet-50骨干网络下,PDEFE方法mIoU达到68.9%,较Mceenet提升了5.4%。
COCO-20i数据集
相比经典模型(如DBMNet和RIFENet),PDEFE在多种条件下均表现出领先性能。在五张样本支持的设置下,新方法的mIoU最高达到55.9%,展现了极其优越的泛化能力。
3. 消融实验与方法验证
为了验证EFEM和EPMG的具体贡献,研究者进行了消融实验。结果表明: - 引入EFEM后,模型在目标边界的分割精度显著提升; - 融合EPMG后,进一步增强了查询特征在边界区域的表达能力。
研究意义
这项研究不仅在方法创新上实现了对现有边缘辅助方法的显著超越,同时也在实际应用中展现了巨大潜力。具体而言: 1. 科学价值:为小样本分割中目标边缘的提取和利用提供了清晰的技术路径; 2. 实际价值:可广泛应用于医学影像、自动驾驶等领域,对边缘精确分割需求显著的任务具有良好的指导意义。
总结
PDEFE通过引入EFEM和EPMG模块,为小样本语义分割提供了全新的解决方案,特别是在目标边界细节增强方面表现卓越。这项工作不仅推动了小样本分割技术的进步,也为其他领域如显著目标检测和边缘检测提供了重要的启发。未来,利用更强大的预训练模型(如SAM)进一步提升边缘检测能力,或探索自动优化的边缘选取机制,都将是重要的研究方向。