分享自:

零样本图像到文本生成的视觉语义算术

期刊:2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)DOI:10.1109/CVPR52688.2022.01739

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


零样本图像到文本生成:视觉-语义算术的新突破
——Yoad Tewel, Yoav Shalev, Idan Schwartz, Lior Wolf(Tel Aviv University)
发表于2022年IEEE/CVF计算机视觉与模式识别会议(CVPR)

一、研究背景与目标

科学领域:本研究属于多模态人工智能领域,结合计算机视觉(CV)与自然语言处理(NLP),探索零样本(zero-shot)图像描述生成任务。

研究动机:传统图像描述生成模型依赖监督训练,需大量人工标注数据(如MS-COCO),生成的描述受限且缺乏多样性。而对比学习模型(如CLIP)虽能评估图像-文本匹配度,却无法直接生成文本。本研究提出Zerocap方法,首次将CLIP与语言模型(GPT-2)结合,实现无需训练的零样本图像描述生成,并扩展至视觉-语义算术任务(如图像类比、关系推理)。

核心目标
1. 开发无需微调的图像到文本生成框架;
2. 通过视觉-语义算术实现高阶视觉推理(如“图像A到图像B的关系类比于图像C到文本X”);
3. 突破传统监督方法的描述局限性,生成更具多样性和真实世界知识的文本。


二、研究方法与流程

1. 框架设计

Zerocap的核心是CLIP引导的语言模型优化
- 输入:单张图像或图像/文本组合(用于算术任务);
- 流程
- 步骤1:CLIP编码图像为视觉嵌入(visual embedding);
- 步骤2:GPT-2基于初始提示(如“image of a”)生成候选词;
- 步骤3:通过CLIP损失(CLIP loss)优化GPT-2的上下文缓存(context cache),使生成文本与图像语义匹配;
- 步骤4:引入交叉熵损失(CE loss)保持语言流畅性,平衡生成文本的语义相关性与自然性。

创新方法
- 零样本优化:仅通过推理时调整GPT-2的键值对(key-value pairs),不修改模型权重;
- 视觉-语义算术:在CLIP嵌入空间中对图像或文本向量进行加减运算(如“Obama - 美国国旗 + 德国国旗 → Angela Merkel”)。

2. 实验设计

  • 数据集:COCO测试集(对比监督方法)、自建视觉关系基准(VR benchmark,含320组图像-关系对);
  • 基线模型:CLIPCap、CLIP-VL、VinVL;
  • 评估指标
    • 传统指标(BLEU、METEOR);
    • 多样性指标(词汇量、新颖句子比例);
    • CLIPScore(无参考的图像-文本语义匹配度)。

三、主要结果

  1. 图像描述生成

    • 多样性:生成的词汇量达8681(远超基线模型的2464),100%为新奇句子;
    • 语义匹配:CLIPScore达0.87(监督方法为0.77),显示更强的图像对齐能力;
    • 实例分析:如图3所示,Zerocap能识别屋顶厕所、航班餐食等场景,而基线模型常生成模式化描述(如“卫生间里的马桶”)。
  2. 视觉-语义算术

    • 关系推理:在VR基准测试中,BLEU-1和Recall@5分别达0.14和0.32(CLIPCap为0.003和0.035);
    • 跨模态类比:如图8,通过“总统-国家”方向向量,成功从奥巴马推导出德国总理默克尔;
    • OCR与知识整合:如图4,从文本图像生成“斯坦福大学”等精确描述,体现真实世界知识。

四、结论与价值

科学价值
1. 首次实现零样本图像到文本生成,为多模态推理提供新范式;
2. 证明CLIP嵌入空间可支持高阶视觉语义操作(如类比、关系提取);
3. 突破监督方法的标注依赖,生成更自由、知识丰富的描述。

应用价值
- 扩展CLIP的零样本能力至生成任务;
- 潜在应用包括无障碍技术、视觉问答、跨模态搜索等。


五、研究亮点

  1. 方法创新
    • 无需训练的CLIP-GPT-2联合框架;
    • 视觉-语义算术实现图像类比和关系推理。
  2. 结果突破
    • 生成文本的多样性和语义匹配度显著优于监督方法;
    • 首次通过算术解决“图像A:B :: C:?”类视觉谜题。
  3. 局限性
    • 依赖西方文化主导的预训练数据(如无法识别中国领导人);
    • GPT-2性能弱于最新大模型(如GPT-3)。

六、其他发现

  • 细粒度控制:通过调整提示词(如“image of text that says”),可定向生成OCR内容;
  • 长尾知识:模型能识别小众概念(如动画角色、城市地标),体现CLIP的广泛知识覆盖。

(注:本文涉及的算法代码已开源:https://github.com/yoadtew/zero-shot-image-to-text)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com