本文档属于类型a,即报告一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
本研究由安国成1、江波2*、王晓龙1、戴军1合作完成,作者单位分别为:
1. 上海华讯网络系统有限公司服务运作部(上海 201103);
2. 中国电子科技集团公司第三十二研究所(上海 201808)。
论文发表于《计算机工程》第50卷第11期(2024年11月),通讯作者为江波(邮箱:*jiangbo@ecict.com.cn*)。研究受“十四五”国家重点研发计划项目(2023YFC3006700)资助。
本研究属于多模态学习(Multi-modal Learning)领域,聚焦于图像-文本语义对齐(Semantic Alignment)问题。当前主流的对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)通过大规模图文数据学习跨模态统一语义表征,但其局限性在于:
1. 粗粒度对齐:CLIP仅约束图像-文本模态间的全局语义匹配,忽略同一模态内(如图像-图像、文本-文本)的细粒度语义关联;
2. 模态偏差:同一模态下样本的语义相似性因模态信息干扰而被压缩,影响下游任务(如检索、分类)的精度。
提出一种基于拓展图文对比学习的多模态语义对齐方法,旨在:
1. 通过微调CLIP优化特定数据集的语义表征;
2. 设计双向匹配策略构建图文样本的拓扑关联图;
3. 引入同模态对比损失,提升细粒度语义区分能力。
研究对象:来自4个数据集(MUGE、COCO、Flickr30k、AIC-CC)的图文对,样本量总计超30万条。
核心步骤:
- 微调CLIP模型(CLIP*):针对下游任务优化预训练模型,增强语义抽取能力。
- 构建匹配拓扑图:
- 使用CLIP*提取图像和文本特征向量,归一化后计算双向相似度(图像→文本、文本→图像);
- 设定阈值筛选高相关样本对,形成无向图结构,节点为样本,边为双向匹配关系。
- 社区划分与采样:通过图嵌入技术划分社区,确保训练样本的语义一致性。
创新方法:
- 双向匹配策略:传统方法仅依赖单向相似度,本研究通过双向约束(图像→文本+文本→图像)减少噪声干扰。
- 图文匹配环(Image-Text Matching Rings):定义若样本对( p=(img, text) )和( p^=(img^, text^) )满足( (img, text^) )与( (img^*, text) )均匹配,则构成闭环关联,增强训练样本的语义相关性。
模型设计:
- 损失函数扩展:在传统图像-文本对比损失(( \mathcal{L}{it} ))基础上,新增图像-图像(( \mathcal{L}{ii^} ))和文本-文本(( \mathcal{L}_{tt^} ))对比损失,权重由可学习参数( \alpha, \beta, \gamma )动态调整。
- 优化目标:最小化负样本对相似度,最大化正样本对相似度,公式如下:
[ \mathcal{L} = \alpha (\mathcal{L}{it} + \mathcal{L}{i^t^}) + \beta \mathcal{L}{ii^*} + \gamma \mathcal{L}{tt^*} ]
实验设置:
- 多模态检索任务:测试图像→文本、文本→图像、图像→图像、文本→文本四种检索模式,以召回率(R@k)为指标。
- 图像分类任务:将类别标签转化为提示词模板(如“a picture of
(注:文中实验数据均引自原文表5-9,方法论细节参考算法1及图1-4。)