Seaformer++:用于移动视觉识别的增强型轴向Transformer架构

SEAFormer++——为移动视觉识别设计的高效Transformer架构 研究背景与问题提出 近年来,计算机视觉领域经历了从卷积神经网络(CNN)到基于Transformer的方法的重大转变。然而,尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力,其高昂的计算成本和内存需求使其难以部署在移动设备上,尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求,研究者们提出了多种轻量化方法,例如局部注意力机制、轴向注意力(Axial Attention)和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。 针对这一挑战,Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer(SEAForm...

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

提升小样本语义分割的新方法——基于先验的边缘特征增强网络 在人工智能领域,语义分割(semantic segmentation)是计算机视觉中的一项核心技术,其目的是为图像中的每个像素赋予语义类别标签。然而,传统的语义分割方法依赖大量的标注数据进行训练,这在实际应用中局限于标注样本数据不足的场景。例如,医学影像分析和自动驾驶中,需要对少数数据类别进行分割,获取精确的分割结果。在此背景下,小样本语义分割(Few-Shot Semantic Segmentation, 简称FSS)作为一种新兴技术得到了研究者的广泛关注,旨在在少量标注样本的条件下实现高质量的语义分割。 然而,与普通语义分割模型相比,小样本语义分割在目标边界预测的准确性上仍然表现不足。原因在于,当样本极其有限时,模型从查询(que...

基于可控扩散模型的射电天文图像生成方法

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道 背景介绍 随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成,无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度,然而,由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说,后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题,尤其对于那些背景噪声显著或源形态复杂的无线电图像(如银河系平面观测)尤为困难。 深度学习(Deep Learning)作为机器学习的一种先进方法,近年来被广泛应用于无线电天文学。然而,此方法依赖于庞大的高质量标注数据集,而无线电天文数据因为人工标注过程复杂且耗时,难以实...

基于少量标注像素和点云的弱监督驾驶场景语义分割

基于少量像素标注与点云数据的驾驶场景弱监督语义分割 背景与研究问题 语义分割作为计算机视觉的重要任务之一,在自动驾驶等领域具有广泛应用。然而,传统的全监督语义分割方法需要大量的像素级标注,标注成本高昂。在弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)中,通过较少的粗粒度标注(如图片标签、边框、点级标注等)实现像素级分割,极大地降低了标注成本。 现有的WSSS方法大多基于CAM(类激活图)生成初始分割种子,但在复杂的驾驶场景中,这种方法表现不佳。驾驶场景中的图像通常包含多种物体类别,且类别间的遮挡、重叠问题严重,导致现有基于图片标签的WSSS方法难以达到高精度分割效果。 针对这些问题,本研究提出了一种结合少量点标注和点云数据的新型W...

从目标到源:域自适应语义分割的新视角

关于领域自适应语义分割的新视角:T2S-DA研究 背景与研究意义 语义分割在计算机视觉领域中具有重要的应用,但其性能往往依赖于大量标注数据。然而,标注数据的获取成本极高,特别是在复杂场景中,为此,许多研究转向利用合成数据来缓解标注需求的问题。然而,由于领域间的差异性(domain gap),基于合成数据训练的模型难以泛化到真实场景中。这种情况下,无监督领域适应(Unsupervised Domain Adaptation, UDA)方法成为解决此问题的有效手段,其目标是从标注的源域(source domain)迁移知识到未标注的目标域(target domain)。 传统的UDA方法主要分为两类:对抗训练和自训练。对抗训练通过分布对齐来缩小领域间的差异,而自训练则利用目标域的伪标签进行直接监...

基于两级类别对齐的无监督域自适应分割算法

基于两级类别对齐的无监督域自适应分割算法

语义分割旨在为图像中的每个像素预测类别标签(Liu et al., 2021; Wang et al., 2021),广泛应用于场景理解、医学图像分析、自动驾驶、地理信息系统和增强现实(Strudel et al., 2021; Sun et al., 2023)。虽然深度神经网络的发展显著提升了分割任务的表现(Chen et al., 2014; Guan et al., 2021; Zhao et al., 2017),但这些进展要求大量像素级标注数据进行模型训练,获取这些数据在现实场景中代价高昂(Jiang et al., 2022; Liang et al., 2023)。与此同时,当测试数据与训练数据存在分布差异时,多数分割方法的性能通常会下降(Huang et al., 2022...

用于语义分割的堆叠反卷积网络

用于语义分割的堆叠反卷积网络

用于语义分割的堆叠反卷积网络 引言 语义分割在计算机视觉领域中是一项关键任务,其目的是对图像中的每一个像素进行分类,预测其类别。然而,现有的全卷积网络(Fully Convolutional Networks, FCNs)在处理空间分辨率方面存在局限性,容易出现物体边界模糊和小物体丢失的问题。为了解决这些问题,本文提出了一种堆叠逆卷积网络(Stacked Deconvolutional Network, SDN)来提升语义分割的效果。 研究背景 在深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)的推动下,语义分割取得了显著进展。DCNN通过强大的学习能力可以获取高级语义特征,比如图像分类、目标检测和关键点预测等。然而,DCNN在语义分割任...

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割 背景介绍 随着计算机视觉领域的不断发展,语义分割成为了其中一个重要而活跃的研究方向。传统的语义分割方法依赖手工标记的像素级标签,然而获取这些精确标注通常需要大量的人力和时间成本。为了解决这一问题,近年来提出了弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS),其目标是在最小化人工标注的前提下,利用弱标注信息(如图像标签、边框、涂鸦等)实现高效的语义分割。 本文研究的是基于图像级标签的弱监督语义分割方法,这是所有 WSSS 类别中最具挑战性的任务。当前方法主要依赖于图像分类模型生成伪分割掩膜(Pseudo Segmentation Masks,PSMs),但这些模型特征主要用于分类任务,导致伪...