这篇文档属于类型a(单篇原创研究论文),以下是详细的学术报告内容:
主要作者与机构
本文作者为Zhiyuan Fan(西北工业大学计算机学院)和Keyi Liang(西北工业大学计算机学院),通讯作者为Zhiyuan Fan。论文发表于ACM国际多媒体会议(MM ‘25),会议于2025年10月27日至31日在爱尔兰都柏林举行。
学术背景
研究领域与动机
本研究属于计算机视觉与机器人交互领域,聚焦于视频到图像的功用性定位(video-to-image affordance grounding)。功用性(affordance)指物体可被感知和实际使用的潜在行为属性(Gibson, 1979),在机器人操作中至关重要。传统方法依赖强监督学习(需成对的视频-图像输入)或弱监督学习(依赖动作标签),但前者缺乏泛化能力,后者难以捕捉关键交互特征。本研究提出视觉概念学习框架(VCL),旨在通过两阶段训练实现从视频学习功用性概念并支持纯文本引导的推理。
研究目标
- 设计一种新范式,通过视频学习功用性概念,摆脱推理阶段对视频输入的依赖;
- 提升交互特征提取的精度,建立自然语言到概念空间的映射;
- 在基准数据集(OPRA和EPIC-Hotspot)上验证模型性能。
研究流程与方法
第一阶段:交互特征提取(强监督训练)
模型架构
- 主干网络:采用DINOv2作为视觉编码器,提取图像和视频的密集特征。
- 适配器模块(Adapter):通过多尺度卷积层(3×3核,步长2)对视频帧特征降采样,保留细粒度交互信息,缓解计算复杂度问题。
- 偏置注意力机制(Biased Attention):在自注意力中引入动态偏移量$B$(公式4),增强对交互区域的关注。$B$通过可学习查询嵌入$s$与键矩阵$K$的乘积生成(公式5)。
- 特征融合与热图预测:通过Transformer交叉注意力融合视频与图像特征,上采样后生成高斯模糊热图。
损失函数
- 热图损失:KL散度(公式6)衡量预测热图与真实分布的差异;
- 动作分类损失:交叉熵损失(公式7)优化动作标签预测;
- 总损失为二者加权和(公式8)。
实验设置
- 数据集:OPRA(16k训练/4k测试样本)和EPIC-Hotspot(1.9k样本);
- 评估指标:KLD(Kullback-Leibler Divergence)、SIM(相似度)、AUC-J(显著性曲线下面积)。
第二阶段:概念学习与语言映射
功用性概念定义
- 对同一物体-动作对的多个视频特征进行聚类,计算中心点$C_{i,j}$作为概念嵌入(公式9)。
概念模块(Conceptual Module)
- 文本编码:使用CLIP提取指令文本的嵌入$D_T$;
- 跨模态对齐:通过Transformer层将文本与图像特征融合,输出$N$个概念令牌。
多令牌对齐训练
- 采用匈牙利算法匹配预测概念与真实交互特征的最优排列(公式10),计算MSE损失(公式11)。
语言引导推理
- 推理阶段仅需输入图像和文本指令,概念模块生成的特征直接替代视频分支的输出。
主要结果
基准对比实验
- OPRA数据集:
- 强监督模型(视频条件)KLD为1.35,优于Afformer(1.51)和MaskAHand(1.48);
- 动作分类Top-1准确率达55.28%,提升5.3%。
- EPIC-Hotspot:KLD为1.83,与SOTA方法相当。
消融实验
- Adapter与偏置注意力的作用:
- 同时使用二者时,KLD降至1.35(表3);
- Adapter在896×896分辨率下节省计算成本(表4)。
- 偏置可视化:注意力偏置$B$显著高亮交互区域(图4)。
文本条件模型的性能
- 在合并热图的评估协议下,KLD为1.32(表5),优于弱监督方法HotSpot(1.42);
- 对“推”“旋转”等动作泛化良好,但“拉”“触摸”性能下降(图5)。
结论与价值
科学价值
- 提出首个通过概念抽象实现视频到图像功用性迁移的框架,弥合了强监督与弱监督方法的鸿沟;
- 验证了语言-概念对齐在机器人任务中的可行性。
应用价值
- 减少对演示视频的依赖,提升模型在真实场景的实用性;
- 为具身智能(Embodied AI)的交互学习提供新范式。
研究亮点
方法创新:
- 两阶段训练框架结合了强监督的精度与弱监督的灵活性;
- 偏置注意力机制显式建模交互特征,适配器平衡计算效率与分辨率。
性能突破:
- 视频条件模型在OPRA上KLD相对降低8.8%;
- 文本条件模型首次实现竞争性性能(无需视频输入)。
局限性:
- 概念学习阶段依赖有限数据,泛化性受限于训练类别;
- 模拟实验表明增加对齐数据可提升15%的泛化能力(表6)。
其他有价值内容
(报告总字数:约1800字)