这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Sounak Mondal(Stony Brook University/Meta Reality Labs Research)、Naveen Sendhilnathan、Ting Zhang等来自Meta Reality Labs Research的团队完成,发表于计算机视觉领域顶级会议ICCV(IEEE International Conference on Computer Vision)。文档标注为“ICCV论文开放获取版本”,由计算机视觉基金会(Computer Vision Foundation)提供。
研究领域:本研究属于人机交互与计算机视觉交叉领域,聚焦于通过眼球追踪数据(gaze scanpaths)解码人类视觉搜索意图。
研究动机:现有基于注视的目标预测模型受限于训练数据中预定义的类别,无法泛化到新类别,限制了在增强现实(AR)/虚拟现实(VR)等动态交互场景中的应用。
科学问题:如何通过零样本学习(zero-shot learning)预测未标注注视数据的新类别目标?
目标:提出Gaze-Language Alignment Model (GLAM),结合视觉-语言模型(vision-language model)与对比学习策略,实现跨类别的注视目标解码。
GLAM由两部分构成:
- 注视编码器(Gaze Encoder):
- 输入:视觉搜索任务的注视扫描路径(scanpath)和图像。
- 创新点:首次同时编码中央凹信息(foveal,注视点局部特征)和外周信息(peripheral,空间上下文),通过交叉注意力(cross-attention)机制提取多尺度特征。
- 技术细节:使用ResNet-50提取图像块嵌入(patch embeddings),通过可学习的“外周查询”(peripheral queries)动态捕获上下文。
- 语言编码器(Language Encoder):
- 输入:大语言模型(LLM)生成的搜索目标描述(如“杯子:外观[圆柱形把手],上下文线索[常出现在桌面]”)。
- 创新点:引入注意力池化层(attentional pooling)优化文本嵌入,提升语义区分度。
提出Gaze-Language Alignment Decomposition (GLAD),分两阶段训练:
- 预训练阶段:
- 数据:LLM生成的2,456类物体搜索描述(来自COCO、ImageNet等数据集)。
- 目标:对齐语言嵌入与CLIP文本编码器的类别标签嵌入,学习类别判别特征。
- 对齐阶段:
- 数据:COCO-Search18数据集(18类目标,30万条注视路径)。
- 目标:通过对比学习(continuously weighted contrastive loss)对齐注视嵌入与语言嵌入。
零样本性能:
全监督性能:
消融分析:
科学价值:
- 首次将视觉-语言模型引入注视目标预测,突破了传统分类模型的类别限制。
- 提出GLAD分解式训练策略,为少样本/零样本 gaze decoding 提供了新范式。
应用价值:
- 可应用于AR/VR系统,实时预测用户搜索意图(如商品、菜单),提升交互效率。
- 为心理学中视觉搜索机制的建模提供了可计算工具。
此研究为动态环境下的意图识别提供了创新解决方案,其代码与数据集已开源,有望推动人机交互与认知计算领域的进一步发展。