基于课程学习的记忆辅助知识转移框架用于弱监督在线活动检测

研究背景与研究意义 近年来,视频理解领域中弱监督在线活动检测(Weakly Supervised Online Activity Detection, WS-OAD)作为高水平视频理解的一个重要课题,得到了广泛关注。其主要目标是通过仅使用廉价的视频级标注,在流媒体视频中逐帧检测正在进行的活动。这一任务在许多实际应用场景中具有重要价值,包括自动驾驶、公共安全监控、机器人导航及增强现实等。 尽管全监督方法(Fully Supervised Methods)已在在线活动检测(OAD)中取得了显著进展,但它们严重依赖于密集的帧级注释(Frame-level Annotations),这不仅成本高昂且易受噪声影响,从而限制了模型的扩展性。弱监督设置旨在解决这一问题,但因其在线约束(Online Con...

AppTracker+:基于位移不确定性的多目标低帧率视频跟踪方法

低帧率多目标跟踪研究的学术报告 引言与研究背景 近年来,多目标跟踪(Multi-Object Tracking, MOT)技术在智能视频监控、自动驾驶及机器人视觉领域中得到了广泛应用。然而,传统MOT方法大多针对高帧率视频设计,在低帧率视频场景中面临显著挑战。低帧率下,相邻帧之间的目标位移增大,物体外观和可见性变化更加剧烈,这对检测结果的关联和轨迹保持提出了更高要求。由于边缘设备通常受到计算、存储和传输带宽限制,低帧率视频成为高效解决方案的重要选择,但其技术难题亟需解决。 本研究由来自浙江大学和香港科技大学的学者团队完成,发表于 *International Journal of Computer Vision*,题为“AppTracker+: Displacement Uncertaint...

基于少量标注像素和点云的弱监督驾驶场景语义分割

基于少量像素标注与点云数据的驾驶场景弱监督语义分割 背景与研究问题 语义分割作为计算机视觉的重要任务之一,在自动驾驶等领域具有广泛应用。然而,传统的全监督语义分割方法需要大量的像素级标注,标注成本高昂。在弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)中,通过较少的粗粒度标注(如图片标签、边框、点级标注等)实现像素级分割,极大地降低了标注成本。 现有的WSSS方法大多基于CAM(类激活图)生成初始分割种子,但在复杂的驾驶场景中,这种方法表现不佳。驾驶场景中的图像通常包含多种物体类别,且类别间的遮挡、重叠问题严重,导致现有基于图片标签的WSSS方法难以达到高精度分割效果。 针对这些问题,本研究提出了一种结合少量点标注和点云数据的新型W...

重新思考用于生物识别数据错误校正的当代深度学习技术

重新思考深度学习技术在生物特征数据纠错中的应用 背景介绍 随着信息技术的发展,生物特征数据在身份验证和安全存储中的应用愈发广泛。传统密码学通常依赖均匀分布且可精确重现的随机字符串,然而,现实中大多数数据(如指纹、虹膜扫描等生物特征)并不具备这样的属性,导致在实际应用中存在生成、存储和检索的诸多挑战。近年来,基于生物特征数据的密码学系统(biometric cryptosystems)被广泛研究,旨在利用独特的生物特征(例如指纹、虹膜等)作为生成加密密钥的来源。然而,由于生物特征数据的固有可变性以及传感器噪声等外部因素,精确恢复加密密钥变得复杂,进而对纠错机制提出了更高的要求。 在这种背景下,近年来深度学习方法凭借其在语音识别、图像处理等领域的卓越表现,被尝试应用于提升生物特征数据的纠错能力。...

自适应中间模态对齐学习用于可见光-红外人体重识别

自适应中间模态对齐学习用于可见光-红外人体重识别

基于可见光和红外跨模态学习的Adaptive Middle-Modality Alignment Learning方法研究 研究背景与问题 在智能监控系统的需求推动下,可见光-红外行人再识别(Visible-Infrared Person Re-identification, VIReID)正逐渐成为一个备受关注的研究领域。该任务旨在通过对不同光谱模态(如可见光与红外)的行人图像进行匹配,实现全天候行人识别。由于可见光和红外图像源自不同的光谱,存在显著的模态差异,包括光照、纹理、颜色等,这使得跨模态匹配成为一大挑战。 传统方法多通过设计复杂的生成对抗网络(Generative Adversarial Networks, GANs)或深度网络模型来缩小模态差异,但这些方法通常存在如下问题: -...