人工智能-学科-FmRead学术前沿

一种用于指代表达分割与生成的互监督框架研究背景与问题提出近年来，视觉-语言交互技术在人工智能领域取得了显著进展。其中，指代表达分割（Referring Expression Segmentation, RES）和指代表达生成（Referring Expression Generation, REG）作为两个核心任务，分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码，以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的，但它们的研究通常被分开进行，缺乏系统性地探讨两者如何相互促进的方法。现有研究面临的主要问题包括：1）RES任务依赖大量标注数据，而这些数据的获取成本高昂；2）REG生成的表达可能存在歧义，难以准确定位目标对象；3）联合训练RES和REG的任务虽然...

GL-MCM: 全局与局部最大概念匹配用于零样本分布外检测研究背景与问题提出在现实世界中，机器学习模型的应用环境往往面临数据分布的变化，例如新类别的出现。这种现象被称为“分布外检测”（Out-of-Distribution Detection, OOD）。为了确保模型在未知数据上的可靠性，OOD 检测成为一项关键任务。然而，传统的单模态监督学习方法虽然在特定任务上表现良好，但其训练成本高昂，且难以适应多样化的应用场景。近年来，基于 CLIP（Contrastive Language–Image Pre-training）的零样本分布外检测方法引起了广泛关注。CLIP 是一种多模态预训练模型，能够通过自然语言监督学习视觉特征。尽管现有方法如 MCM（Maximum Concept Mat...

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能背景介绍近年来，多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而，基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息，但这些方法忽略了视角转换的关键问题，导致空间知识在图像骨干和视角转换模块之间存在错位，从而影响了性能。为了解决这一问题，本文提出了一种新颖的几何感知预训练框架——GAPretrain。论文来源该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写，他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...

一种通过掩码图像建模预训练探索强轻量级视觉Transformer的实验研究学术背景近年来，自监督学习（self-supervised learning, SSL）在计算机视觉领域取得了显著进展。特别是掩码图像建模（masked image modeling, MIM）预训练方法在大规模视觉Transformer（vision transformers, ViTs）上的成功应用，使得基于这些模型的下游任务性能得到了极大提升。然而，现有的研究主要集中在大型ViTs上，对于轻量级ViTs的预训练方法及其效果的研究相对较少。此外，尽管许多研究致力于设计复杂的轻量级ViTs架构以提高性能，但很少有工作关注如何优化预训练策略来进一步提升现有轻量级模型的表现。本文旨在探讨MIM预训练能否同样有效应用于...

高精度预测蛋白片段抑制活性的新方法：FragFold的应用学术背景蛋白质相互作用在细胞生命活动中扮演着至关重要的角色，而小肽（peptides）或蛋白片段（protein fragments）可以通过与特定蛋白界面结合，调节蛋白功能，甚至作为抑制剂发挥作用。近年来，高通量实验技术的发展使得在活细胞中大规模测量蛋白片段的抑制活性成为可能。然而，迄今为止，尚未有相应的计算方法能够预测哪些蛋白片段能够与目标蛋白结合并发挥抑制作用，更不用说预测它们的结合模式。这一领域的研究空白促使研究人员开发新的计算工具来解决这一问题。 AlphaFold的推出为蛋白质结构预测带来了革命性的突破，但其在预测蛋白片段与全蛋白结合方面的应用仍然有限。为了填补这一空白，Andrew Savinov等研究人员开发了一种...

基于小波分析识别金融价格跳跃的新类别研究报告学术背景金融市场中的价格跳跃（price jumps）是指在极短时间内价格发生显著波动的现象，通常由外生因素（如突发新闻）或内生因素（市场内部反馈机制）引起。区分这两种不同类型的价格跳跃对于理解市场动态、预测极端事件以及制定有效的监管策略至关重要。然而，现有的研究方法多依赖于监督学习，需要明确的标签（如新闻事件）来分类跳跃，这在实际应用中存在局限性，因为许多价格跳跃可能并没有明确的新闻背景。为了更好地识别和分类价格跳跃，特别是那些没有明显外生触发的内生跳跃，研究人员提出了一种无监督的分类框架，利用多尺度小波表示（multiscale wavelet representation）来分析时间序列。这一框架不仅能够捕捉价格跳跃的时间不对称性（ti...

基于相互监督框架的指代表达分割与生成

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

基于Lidar引导的视觉中心3D物体检测的几何预训练

通过掩码图像建模预训练探索轻量级视觉Transformer的实验研究

利用AlphaFold高通量发现抑制性蛋白质片段的研究

利用小波识别金融价格跳跃的新分类