深入研究长尾图像识别中的简单性偏差

学术背景与问题提出 近年来,深度神经网络在计算机视觉领域取得了显著进展,尤其是在图像识别、目标检测和语义分割等任务中。然而,当面对长尾分布(long-tailed distribution)数据时,即使是目前最先进的深度模型也表现不佳。长尾分布指的是数据集中少数类(tail classes)的样本数量远远少于多数类(head classes)的样本数量。这种数据不平衡问题在许多实际应用中普遍存在,例如管道故障检测和人脸识别等。 长尾图像识别的主要挑战在于如何有效处理数据不平衡问题,尤其是如何提升少数类的泛化性能。常见的解决方案包括重采样(re-sampling)、损失重加权(loss re-weighting)和数据增强(data augmentation)等。然而,这些方法往往无法从根本上...

PICK:基于预测与掩码的半监督医学图像分割方法

PICK模型在半监督医学图像分割中的应用 学术背景 医学图像分割在临床实践中具有重要意义,能够为医生提供关于器官或肿瘤的体积、位置和形状等关键信息。近年来,基于深度学习的模型在医学图像分割任务中表现出色,但这些模型通常需要大量的标注数据。然而,医学图像的标注需要专业的临床医生,获取这些标注数据既耗时又昂贵。因此,如何在有限的标注数据下提高模型性能成为了一个重要的研究问题。 半监督学习(Semi-Supervised Learning, SSL)通过同时利用有限的标注数据和大量的未标注数据,成为解决这一问题的有效方法。现有的SSL方法主要分为两类:伪标签(Pseudo-labeling)和基于一致性的协同训练(Consistency-based Co-training)。然而,这些方法在处理未...

基于启发式可逆网络的水下感知增强方法

学术背景与问题提出 水下图像在海洋探测、水下机器人、海洋生物识别等领域具有重要应用价值。然而,由于水对光的折射和吸收作用,水下图像通常存在对比度低、颜色失真等问题,严重影响了后续的感知任务(如目标检测、语义分割等)的准确性。现有的水下图像增强方法主要关注视觉质量的提升,而忽略了增强图像在后续任务中的实际应用效果。因此,如何在视觉质量提升和实际应用之间找到平衡,成为了当前研究的一个重要挑战。 为了解决这一问题,本文提出了一种基于启发式可逆网络的水下感知增强方法(HUPE)。该方法不仅能够提升水下图像的视觉质量,还能通过语义协作学习模块提取任务导向的语义特征,从而更好地服务于后续的感知任务。 论文来源与作者信息 本文由Zengxi Zhang、Zhiying Jiang、Long Ma、Jiny...

基于质量对抗学习的盲图像质量评估:探索内容保真度感知

基于质量对抗学习的无参考图像质量评估方法研究 学术背景 图像质量评估(Image Quality Assessment, IQA)是计算机视觉领域中的一个基础问题,旨在评估图像在视觉内容上的保真度。IQA在图像压缩、恢复等领域具有重要的应用价值。传统的IQA方法主要分为全参考(Full-Reference, FR-IQA)和无参考(No-Reference, NR-IQA)两类。FR-IQA通过比较失真图像与参考图像之间的差异来评估图像质量,而NR-IQA则在没有参考图像的情况下,仅通过失真图像本身来评估其质量。由于NR-IQA缺乏参考图像,其在评估图像内容保真度(Content Fidelity)方面存在较大挑战,难以区分原始内容与失真之间的差异。 近年来,基于深度学习的NR-IQA方法取...

基于服装状态感知的长期行人重识别特征正则化网络

在计算机视觉领域,行人重识别(Person Re-Identification, Re-ID)是一项重要的任务,旨在通过不同时间和地点的非重叠摄像头捕捉的图像或视频,匹配同一个人的身份。随着监控系统在公共安全中的广泛应用,Re-ID技术成为了视觉监控中的关键环节。然而,Re-ID任务面临着诸多挑战,尤其是在长期行人重识别(Long-Term Person Re-Identification, LT-ReID)中,由于时间跨度较长,行人的服装可能会发生完全、部分或不变的变化,这给传统的Re-ID方法带来了极大的困难。 传统的LT-ReID方法主要分为两类:基于生物特征的方法和基于数据适应的方法。前者依赖于生物特征(如步态、体型、面部特征等)来应对服装变化,但在复杂背景或数据不完整的情况下表现不...

利用通用代理模型进行样本选择来应对标签噪声

学术背景与问题提出 随着深度神经网络(Deep Neural Networks, DNNs)的快速发展,视觉智能系统在图像分类、目标检测、视频理解等任务中取得了显著进展。然而,这些突破依赖于高质量标注数据的收集,而标注过程通常耗时且昂贵。为了应对这一问题,研究人员开始利用大规模的网络数据进行训练,但这些数据往往带有噪声标签(label noise),这会影响深度神经网络的性能。噪声标签的存在会导致训练数据和测试数据分布不一致,从而影响模型在干净测试数据上的泛化能力。 为了解决这一问题,样本选择(sample selection)成为一种有效的方法。其核心思想是通过某种标准从所有训练样本中分离出干净的样本。以往的方法主要依赖于“小损失准则”(small loss criterion),即认为损...

从行为到自然语言:无人机意图识别的生成方法

基于生成模型的无人机行为意图识别:从行为到自然语言的跨模态研究 背景及研究目标 近年来,无人机(Unmanned Aerial Vehicle,UAV)技术取得飞速发展,广泛应用于民用与军事领域,如搜索救援、农业精准作业和通信中继等。然而,随着无人机群规模的扩大以及智能化水平的提升,空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中,提高无人机的“态势感知”(situation awareness)水平已然成为关键问题,尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系,优化信息在指挥层级中的流动,并为决策提供指导。 传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制,导致分类精度难以应用于现实复杂场景。本研究提出了...

基于选择性频率交互网络的航空目标检测增强

提升无人机目标检测的选择性频域交互网络 研究背景及问题提出 随着计算机视觉技术的发展,无人机目标检测已成为遥感领域的重要研究方向之一。无人机目标检测旨在从倾斜拍摄和高度多变的航拍图像中识别出诸如车辆、建筑物等目标。这一技术在环境监测、灾害管理以及安全监控等领域具有广泛应用。然而,受目标尺度、方向以及复杂背景的影响,无人机目标检测面临诸多挑战,包括目标间密集分布、光照差异和视角变化等问题。 当前大多数基于卷积神经网络(Convolutional Neural Networks, CNN)的解决方案主要注重空间和通道交互,忽视频域信息的重要性。频域信息对于捕捉对象的纹理、边缘等特定特征具有不可替代的作用,然而,现有的权重分配方法,例如通道注意力机制,难以完全利用频域信息,往往导致信息丢失。这种不...

基于扩散模型的特征增强在整张切片图像多实例学习中的应用

基于扩散模型的特征增强:针对全视野病理图像多实例学习的新方法 学术背景与研究动机 在计算病理学(computational pathology)领域,如何有效分析全视野扫描病理图像(Whole Slide Images,WSIs)是当前研究的热点。WSIs 是超高分辨率的图像,通常具有广域的视野,广泛用于癌症诊断。然而,由于病例标记的稀缺性以及图像自身的体量庞大,基于深度学习的多实例学习(Multiple Instance Learning,MIL)在WSI的自动化分析中面临诸多挑战。 MIL 是一种经典的弱监督学习方法,核心思路在于将整个WSI看作一个“袋”级别的实例,而每块小图像(patch)作为单独的“袋中实例”。虽然袋级别的标签已知,但单个实例的标签未知。在 MIL 的应用中,常见的...

基于单换能器的可穿戴回声肌电图系统

穿戴式单一声波肌电图系统的创新突破:从肌肉动态监测到复杂手势跟踪 学术背景与研究意义 近年来,穿戴式电子设备因其在健康监测和人机交互领域中的巨大潜力而备受关注。其中,表面肌电图(Electromyography,EMG)作为一种能够测量肌肉活动的技术,已成为研究的热点。然而,EMG 信号存在诸多限制:信号强度弱且不稳定,空间分辨率较低,且信噪比不佳。其随机性和低同步性的问题导致测量结果的不一致,使得难以实现对特定肌肉纤维贡献的有效分离。此外,为提高信号质量所采用的大型电极会进一步降低空间分辨率。 相比之下,超声波肌电图(Echomyography,ECMG)是一种利用超声波来测量肌肉活动的技术,具有安全、稳定、灵敏度高等特点。然而,目前依赖刚性或柔性传感器阵列的 ECMG 系统需要复杂的线路...