分享自:

基于Transformer的图文跨模态检索算法

期刊:jsjkxDOI:10.11896/jsjkx.220100083

基于Transformer的图文跨模态检索算法研究学术报告

一、研究作者及发表信息
本研究的通讯作者为电子科技大学公共安全技术研究中心的殷光强(yingq@uestc.edu.cn),其他作者包括杨晓宇、李超、陈舜尧和李浩亮。研究论文《基于transformer的图文跨模态检索算法》发表于《计算机科学》(*Computer Science*)2023年4月第50卷第4期,DOI编号为10.11896/jsjkx.220100083,由深圳市科技计划项目(jsgg20220301090405009)资助。

二、学术背景与研究目标
随着互联网多媒体数据的爆炸式增长,图像与文本的跨模态检索成为研究热点。传统方法依赖跨模态交互注意力机制(mutual attention mechanism),虽能实现较高的匹配精度,但需在线计算图像与文本特征的交互,导致检索效率低下。而基于Transformer的公共空间特征学习方法(public space feature learning)通过独立编码图像和文本特征,直接计算相似度,虽效率高但精度不足。

本研究旨在解决上述矛盾,提出一种新型的基于Transformer的图文检索网络结构——分层聚合共享网络(Hierarchical Aggregation Sharing Network, HAS-Net),其核心目标包括:
1. 通过分层Transformer编码结构(hierarchical transformer coding structure)同时利用底层语法信息(如局部特征)和高层语义信息(如全局特征);
2. 改进传统特征聚合方式,利用自注意力机制(self-attention mechanism)挖掘局部与全局特征的关联;
3. 通过共享Transformer编码层(shared transformer encoding layers),将图像和文本映射到统一的公共特征空间,弥合“异构鸿沟”(heterogeneity gap)。

三、研究流程与方法
1. 特征分层提取(Hierarchical Feature Extraction)
- 图像编码
- 底层特征(Image Feature-Level):通过第一层Transformer编码器提取图像局部语法信息(如物体边缘、颜色分布),经多层感知机(MLPs)非线性变换后输出。
- 高层特征(Image Semantic-Level):通过最后一层Transformer编码器捕获图像全局语义信息(如场景类别、物体关系),同样经MLPs处理。
- 文本编码
- 词级特征(Text Word-Level):从文本编码器第一层提取单词级语法特征(如词性、短语结构)。
- 语义级特征(Text Semantic-Level):从高层编码器获取句子级语义表示(如情感、主题)。

  1. 特征聚合模块(Feature Aggregation Module)

    • 在图像区域和文本序列开头引入特殊标记(如[CLS]),通过自注意力机制动态加权局部特征,生成聚合后的全局特征。具体步骤包括:
      • 将全局特征与局部特征分别通过全连接层映射为嵌入向量;
      • 对位相乘后经FC层计算权重分数,Softmax归一化后加权求和。
  2. 特征共享模块(Feature Sharing Module)

    • 共享部分Transformer编码层权重,强制图像和文本特征映射到同一公共空间,减少模态间分布差异。
  3. 损失函数与训练

    • 采用基于三元组损失(hinge-based triplet loss)的联合优化目标,公式为:
      [ L = \alpha L_f + L_s
      ] 其中(L_f)和(L_s)分别对应底层和高层特征匹配损失,超参数(\alpha)平衡两者权重。
    • 实验环境:NVIDIA Tesla T4 GPU(16GB显存),PyTorch框架,初始学习率2e-6,Batch Size为80。

四、主要实验结果
1. 参数优化验证
- α参数实验:在MS-COCO数据集上,当(\alpha=1)时文本检索Rank@1达69.6%;在Flickr30K上(\alpha=0.3)时Rank@1为64.8%,表明底层语法信息对提升精度具有重要作用,但过高权重会干扰语义表达。

  1. 模块有效性验证

    • 分层结构:在MS-COCO上,同时使用高低层特征比仅用高层特征使文本检索Rank@1提升5.9%(69.6% vs 63.7%);在Flickr30K上提升11.6%(64.8% vs 53.2%)。
    • 自注意力聚合:相比求和(sum)或GRU聚合,自注意力机制在MS-COCO上Rank@1提升1%(69.6% vs 68.6%)。
    • 共享权重:共享编码层使MS-COCO的Rank@1提升6.9%(69.6% vs 62.7%),证明公共特征空间的有效性。
  2. 跨数据集对比

    • 在MS-COCO 1K测试集上,HAS-Net的文本检索Rank@1达69.6%,优于同类非交互式方法TERN(63.7%),但低于需交互注意力的TERAN(80.2%),验证了其在效率与精度间的平衡优势。

五、研究结论与价值
1. 科学价值
- 提出分层Transformer编码结构,首次系统利用不同层级的跨模态特征;
- 自注意力特征聚合方法为多模态特征融合提供了新思路;
- 共享权重机制为减少异构鸿沟提供了可复用的技术路径。

  1. 应用价值
    • 适用于大规模图像库的快速检索(如电商、安防场景),在保证效率的同时显著提升精度;
    • 方法论可扩展至其他跨模态任务(如视频-文本检索)。

六、研究亮点
1. 分层特征利用:首次联合优化底层语法与高层语义特征,克服传统方法单一层级表征的局限性。
2. 轻量化设计:通过非交互式架构实现高效检索,MS-COCO 1K测试集单卡推理速度较交互式方法提升3倍以上。
3. 可解释性:自注意力权重可视化揭示了局部特征对全局语义的贡献度,增强模型透明度。

七、未来方向
作者指出,下一步可探索跨模态交互与分层特征的结合,以牺牲部分效率换取更高精度。此外,预训练策略(如对比学习)可能进一步提升公共空间的语义一致性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com