基于Transformer的图文跨模态检索算法研究学术报告
一、研究作者及发表信息
本研究的通讯作者为电子科技大学公共安全技术研究中心的殷光强(yingq@uestc.edu.cn),其他作者包括杨晓宇、李超、陈舜尧和李浩亮。研究论文《基于transformer的图文跨模态检索算法》发表于《计算机科学》(*Computer Science*)2023年4月第50卷第4期,DOI编号为10.11896/jsjkx.220100083,由深圳市科技计划项目(jsgg20220301090405009)资助。
二、学术背景与研究目标
随着互联网多媒体数据的爆炸式增长,图像与文本的跨模态检索成为研究热点。传统方法依赖跨模态交互注意力机制(mutual attention mechanism),虽能实现较高的匹配精度,但需在线计算图像与文本特征的交互,导致检索效率低下。而基于Transformer的公共空间特征学习方法(public space feature learning)通过独立编码图像和文本特征,直接计算相似度,虽效率高但精度不足。
本研究旨在解决上述矛盾,提出一种新型的基于Transformer的图文检索网络结构——分层聚合共享网络(Hierarchical Aggregation Sharing Network, HAS-Net),其核心目标包括:
1. 通过分层Transformer编码结构(hierarchical transformer coding structure)同时利用底层语法信息(如局部特征)和高层语义信息(如全局特征);
2. 改进传统特征聚合方式,利用自注意力机制(self-attention mechanism)挖掘局部与全局特征的关联;
3. 通过共享Transformer编码层(shared transformer encoding layers),将图像和文本映射到统一的公共特征空间,弥合“异构鸿沟”(heterogeneity gap)。
三、研究流程与方法
1. 特征分层提取(Hierarchical Feature Extraction)
- 图像编码:
- 底层特征(Image Feature-Level):通过第一层Transformer编码器提取图像局部语法信息(如物体边缘、颜色分布),经多层感知机(MLPs)非线性变换后输出。
- 高层特征(Image Semantic-Level):通过最后一层Transformer编码器捕获图像全局语义信息(如场景类别、物体关系),同样经MLPs处理。
- 文本编码:
- 词级特征(Text Word-Level):从文本编码器第一层提取单词级语法特征(如词性、短语结构)。
- 语义级特征(Text Semantic-Level):从高层编码器获取句子级语义表示(如情感、主题)。
特征聚合模块(Feature Aggregation Module)
[CLS]),通过自注意力机制动态加权局部特征,生成聚合后的全局特征。具体步骤包括:特征共享模块(Feature Sharing Module)
损失函数与训练
四、主要实验结果
1. 参数优化验证
- α参数实验:在MS-COCO数据集上,当(\alpha=1)时文本检索Rank@1达69.6%;在Flickr30K上(\alpha=0.3)时Rank@1为64.8%,表明底层语法信息对提升精度具有重要作用,但过高权重会干扰语义表达。
模块有效性验证
跨数据集对比
五、研究结论与价值
1. 科学价值:
- 提出分层Transformer编码结构,首次系统利用不同层级的跨模态特征;
- 自注意力特征聚合方法为多模态特征融合提供了新思路;
- 共享权重机制为减少异构鸿沟提供了可复用的技术路径。
六、研究亮点
1. 分层特征利用:首次联合优化底层语法与高层语义特征,克服传统方法单一层级表征的局限性。
2. 轻量化设计:通过非交互式架构实现高效检索,MS-COCO 1K测试集单卡推理速度较交互式方法提升3倍以上。
3. 可解释性:自注意力权重可视化揭示了局部特征对全局语义的贡献度,增强模型透明度。
七、未来方向
作者指出,下一步可探索跨模态交互与分层特征的结合,以牺牲部分效率换取更高精度。此外,预训练策略(如对比学习)可能进一步提升公共空间的语义一致性。