工程学-学科-FmRead学术前沿

研究背景与研究意义近年来，视频理解领域中弱监督在线活动检测（Weakly Supervised Online Activity Detection, WS-OAD）作为高水平视频理解的一个重要课题，得到了广泛关注。其主要目标是通过仅使用廉价的视频级标注，在流媒体视频中逐帧检测正在进行的活动。这一任务在许多实际应用场景中具有重要价值，包括自动驾驶、公共安全监控、机器人导航及增强现实等。尽管全监督方法（Fully Supervised Methods）已在在线活动检测（OAD）中取得了显著进展，但它们严重依赖于密集的帧级注释（Frame-level Annotations），这不仅成本高昂且易受噪声影响，从而限制了模型的扩展性。弱监督设置旨在解决这一问题，但因其在线约束（Online Con...

低帧率多目标跟踪研究的学术报告引言与研究背景近年来，多目标跟踪（Multi-Object Tracking, MOT）技术在智能视频监控、自动驾驶及机器人视觉领域中得到了广泛应用。然而，传统MOT方法大多针对高帧率视频设计，在低帧率视频场景中面临显著挑战。低帧率下，相邻帧之间的目标位移增大，物体外观和可见性变化更加剧烈，这对检测结果的关联和轨迹保持提出了更高要求。由于边缘设备通常受到计算、存储和传输带宽限制，低帧率视频成为高效解决方案的重要选择，但其技术难题亟需解决。本研究由来自浙江大学和香港科技大学的学者团队完成，发表于 *International Journal of Computer Vision*，题为“AppTracker+: Displacement Uncertaint...

基于少量像素标注与点云数据的驾驶场景弱监督语义分割背景与研究问题语义分割作为计算机视觉的重要任务之一，在自动驾驶等领域具有广泛应用。然而，传统的全监督语义分割方法需要大量的像素级标注，标注成本高昂。在弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）中，通过较少的粗粒度标注（如图片标签、边框、点级标注等）实现像素级分割，极大地降低了标注成本。现有的WSSS方法大多基于CAM（类激活图）生成初始分割种子，但在复杂的驾驶场景中，这种方法表现不佳。驾驶场景中的图像通常包含多种物体类别，且类别间的遮挡、重叠问题严重，导致现有基于图片标签的WSSS方法难以达到高精度分割效果。针对这些问题，本研究提出了一种结合少量点标注和点云数据的新型W...

重新思考深度学习技术在生物特征数据纠错中的应用背景介绍随着信息技术的发展，生物特征数据在身份验证和安全存储中的应用愈发广泛。传统密码学通常依赖均匀分布且可精确重现的随机字符串，然而，现实中大多数数据（如指纹、虹膜扫描等生物特征）并不具备这样的属性，导致在实际应用中存在生成、存储和检索的诸多挑战。近年来，基于生物特征数据的密码学系统（biometric cryptosystems）被广泛研究，旨在利用独特的生物特征（例如指纹、虹膜等）作为生成加密密钥的来源。然而，由于生物特征数据的固有可变性以及传感器噪声等外部因素，精确恢复加密密钥变得复杂，进而对纠错机制提出了更高的要求。在这种背景下，近年来深度学习方法凭借其在语音识别、图像处理等领域的卓越表现，被尝试应用于提升生物特征数据的纠错能力。...

基于可见光和红外跨模态学习的Adaptive Middle-Modality Alignment Learning方法研究研究背景与问题在智能监控系统的需求推动下，可见光-红外行人再识别（Visible-Infrared Person Re-identification, VIReID）正逐渐成为一个备受关注的研究领域。该任务旨在通过对不同光谱模态（如可见光与红外）的行人图像进行匹配，实现全天候行人识别。由于可见光和红外图像源自不同的光谱，存在显著的模态差异，包括光照、纹理、颜色等，这使得跨模态匹配成为一大挑战。传统方法多通过设计复杂的生成对抗网络（Generative Adversarial Networks, GANs）或深度网络模型来缩小模态差异，但这些方法通常存在如下问题： -...

基于课程学习的记忆辅助知识转移框架用于弱监督在线活动检测

AppTracker+：基于位移不确定性的多目标低帧率视频跟踪方法

基于少量标注像素和点云的弱监督驾驶场景语义分割

重新思考用于生物识别数据错误校正的当代深度学习技术

自适应中间模态对齐学习用于可见光-红外人体重识别