基于双提示的排练式持续学习方法:DUPT

学术背景 在机器学习和神经网络领域,持续学习(Continual Learning)是一个重要的研究方向。持续学习的目标是让模型能够在一系列任务中不断学习新知识,同时避免遗忘已经学到的旧知识。然而,现有的持续学习方法面临一个主要挑战:灾难性遗忘(Catastrophic Forgetting)。灾难性遗忘指的是模型在学习新任务时,会迅速遗忘之前学到的知识,导致旧任务的性能大幅下降。这一问题在现实应用中尤为突出,因为许多任务需要模型在不断变化的环境中持续学习和适应。 为了解决这一问题,研究者们提出了多种方法,其中基于回放的方法(Rehearsal-based Methods)是一种常见的解决方案。这类方法通过存储旧任务的代表性样本,并在学习新任务时回放这些样本来巩固旧知识。然而,现有的回放方法...

Seaformer++:用于移动视觉识别的增强型轴向Transformer架构

SEAFormer++——为移动视觉识别设计的高效Transformer架构 研究背景与问题提出 近年来,计算机视觉领域经历了从卷积神经网络(CNN)到基于Transformer的方法的重大转变。然而,尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力,其高昂的计算成本和内存需求使其难以部署在移动设备上,尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求,研究者们提出了多种轻量化方法,例如局部注意力机制、轴向注意力(Axial Attention)和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。 针对这一挑战,Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer(SEAForm...

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能 背景介绍 近年来,多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而,基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息,但这些方法忽略了视角转换的关键问题,导致空间知识在图像骨干和视角转换模块之间存在错位,从而影响了性能。为了解决这一问题,本文提出了一种新颖的几何感知预训练框架——GAPretrain。 论文来源 该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写,他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...

通过掩码图像建模预训练探索轻量级视觉Transformer的实验研究

一种通过掩码图像建模预训练探索强轻量级视觉Transformer的实验研究 学术背景 近年来,自监督学习(self-supervised learning, SSL)在计算机视觉领域取得了显著进展。特别是掩码图像建模(masked image modeling, MIM)预训练方法在大规模视觉Transformer(vision transformers, ViTs)上的成功应用,使得基于这些模型的下游任务性能得到了极大提升。然而,现有的研究主要集中在大型ViTs上,对于轻量级ViTs的预训练方法及其效果的研究相对较少。此外,尽管许多研究致力于设计复杂的轻量级ViTs架构以提高性能,但很少有工作关注如何优化预训练策略来进一步提升现有轻量级模型的表现。本文旨在探讨MIM预训练能否同样有效应用于...

基于课程学习的记忆辅助知识转移框架用于弱监督在线活动检测

研究背景与研究意义 近年来,视频理解领域中弱监督在线活动检测(Weakly Supervised Online Activity Detection, WS-OAD)作为高水平视频理解的一个重要课题,得到了广泛关注。其主要目标是通过仅使用廉价的视频级标注,在流媒体视频中逐帧检测正在进行的活动。这一任务在许多实际应用场景中具有重要价值,包括自动驾驶、公共安全监控、机器人导航及增强现实等。 尽管全监督方法(Fully Supervised Methods)已在在线活动检测(OAD)中取得了显著进展,但它们严重依赖于密集的帧级注释(Frame-level Annotations),这不仅成本高昂且易受噪声影响,从而限制了模型的扩展性。弱监督设置旨在解决这一问题,但因其在线约束(Online Con...