分享自:

视觉搜索目标的零样本预测中的凝视-语言对齐

期刊:iccv

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


GLAM模型:基于注视-语言对齐的零样本视觉搜索目标预测研究

一、作者与发表信息

本研究由Sounak Mondal(Stony Brook University/Meta Reality Labs Research)、Naveen SendhilnathanTing Zhang等来自Meta Reality Labs Research的团队完成,发表于计算机视觉领域顶级会议ICCV(IEEE International Conference on Computer Vision)。文档标注为“ICCV论文开放获取版本”,由计算机视觉基金会(Computer Vision Foundation)提供。

二、学术背景

研究领域:本研究属于人机交互与计算机视觉交叉领域,聚焦于通过眼球追踪数据(gaze scanpaths)解码人类视觉搜索意图。
研究动机:现有基于注视的目标预测模型受限于训练数据中预定义的类别,无法泛化到新类别,限制了在增强现实(AR)/虚拟现实(VR)等动态交互场景中的应用。
科学问题:如何通过零样本学习(zero-shot learning)预测未标注注视数据的新类别目标?
目标:提出Gaze-Language Alignment Model (GLAM),结合视觉-语言模型(vision-language model)与对比学习策略,实现跨类别的注视目标解码。

三、研究流程与方法

1. 模型架构设计

GLAM由两部分构成:
- 注视编码器(Gaze Encoder)
- 输入:视觉搜索任务的注视扫描路径(scanpath)和图像。
- 创新点:首次同时编码中央凹信息(foveal,注视点局部特征)和外周信息(peripheral,空间上下文),通过交叉注意力(cross-attention)机制提取多尺度特征。
- 技术细节:使用ResNet-50提取图像块嵌入(patch embeddings),通过可学习的“外周查询”(peripheral queries)动态捕获上下文。
- 语言编码器(Language Encoder)
- 输入:大语言模型(LLM)生成的搜索目标描述(如“杯子:外观[圆柱形把手],上下文线索[常出现在桌面]”)。
- 创新点:引入注意力池化层(attentional pooling)优化文本嵌入,提升语义区分度。

2. 训练策略GLAD

提出Gaze-Language Alignment Decomposition (GLAD),分两阶段训练:
- 预训练阶段
- 数据:LLM生成的2,456类物体搜索描述(来自COCO、ImageNet等数据集)。
- 目标:对齐语言嵌入与CLIP文本编码器的类别标签嵌入,学习类别判别特征。
- 对齐阶段
- 数据:COCO-Search18数据集(18类目标,30万条注视路径)。
- 目标:通过对比学习(continuously weighted contrastive loss)对齐注视嵌入与语言嵌入。

3. 实验设计
  • 零样本评估:18折交叉验证,每次留出一类作为新类别测试。
  • 全监督评估:在COCO-Search18测试集上对比现有方法(如BOVW、GazeGNN)。
  • 消融实验:验证外周窗口大小(w)、LLM提示组件(外观/上下文)的影响。

四、主要结果

  1. 零样本性能

    • GLAM+GLAD在未训练类别上达到30.17%准确率,比朴素对比学习策略提升近1/3,甚至超过全监督基线方法BOVW(27.38%)。
    • 关键因素:GLAD预训练赋予模型对未知类别的搜索策略先验知识。
  2. 全监督性能

    • GLAM在18类目标预测中准确率达58.22%,超越此前最优方法GST(46.45%)。
    • 目标存在性预测(target presence)准确率83.48%,显示外周信息对空间上下文建模的重要性。
  3. 消融分析

    • LLM提示组件:同时包含“外观”和“上下文”提示时准确率最高(58.22% vs. 单独外观49.91%)。
    • 外周窗口大小:w=1(仅注视点邻域)在零样本中表现最佳,验证了视觉搜索的偏心效应(eccentricity effects)。

五、结论与价值

科学价值
- 首次将视觉-语言模型引入注视目标预测,突破了传统分类模型的类别限制。
- 提出GLAD分解式训练策略,为少样本/零样本 gaze decoding 提供了新范式。

应用价值
- 可应用于AR/VR系统,实时预测用户搜索意图(如商品、菜单),提升交互效率。
- 为心理学中视觉搜索机制的建模提供了可计算工具。

六、研究亮点

  1. 跨模态对齐:通过注视-语言嵌入共享空间,实现零样本泛化。
  2. 认知启发设计:外周信息编码模拟人类视觉搜索的生物学机制。
  3. 数据效率:利用LLM生成描述,减少对大规模注视数据的依赖。

七、其他发现

  • 注视路径的时序建模:通过Transformer的自注意力机制,GLAM可捕捉扫描路径中的动态决策过程。
  • 失败案例分析:模型对语义相似类别(如“瓶子”和“杯子”)仍有混淆,未来需引入更细粒度的视觉-语言对齐。

此研究为动态环境下的意图识别提供了创新解决方案,其代码与数据集已开源,有望推动人机交互与认知计算领域的进一步发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com