分享自:

基于拓展图文对比学习的多模态语义对齐

期刊:计算机工程DOI:10.19678/j.issn.1000-3428.0069468

本文档属于类型a,即报告一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


一、研究作者与发表信息

本研究由安国成1、江波2*、王晓龙1、戴军1合作完成,作者单位分别为:
1. 上海华讯网络系统有限公司服务运作部(上海 201103);
2. 中国电子科技集团公司第三十二研究所(上海 201808)。
论文发表于《计算机工程》第50卷第11期(2024年11月),通讯作者为江波(邮箱:*jiangbo@ecict.com.cn*)。研究受“十四五”国家重点研发计划项目(2023YFC3006700)资助。


二、学术背景与研究目标

科学领域与背景

本研究属于多模态学习(Multi-modal Learning)领域,聚焦于图像-文本语义对齐(Semantic Alignment)问题。当前主流的对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)通过大规模图文数据学习跨模态统一语义表征,但其局限性在于:
1. 粗粒度对齐:CLIP仅约束图像-文本模态间的全局语义匹配,忽略同一模态内(如图像-图像、文本-文本)的细粒度语义关联;
2. 模态偏差:同一模态下样本的语义相似性因模态信息干扰而被压缩,影响下游任务(如检索、分类)的精度。

研究目标

提出一种基于拓展图文对比学习的多模态语义对齐方法,旨在:
1. 通过微调CLIP优化特定数据集的语义表征;
2. 设计双向匹配策略构建图文样本的拓扑关联图;
3. 引入同模态对比损失,提升细粒度语义区分能力。


三、研究流程与方法

1. 图文匹配环挖掘算法

研究对象:来自4个数据集(MUGE、COCO、Flickr30k、AIC-CC)的图文对,样本量总计超30万条。
核心步骤
- 微调CLIP模型(CLIP*):针对下游任务优化预训练模型,增强语义抽取能力。
- 构建匹配拓扑图
- 使用CLIP*提取图像和文本特征向量,归一化后计算双向相似度(图像→文本、文本→图像);
- 设定阈值筛选高相关样本对,形成无向图结构,节点为样本,边为双向匹配关系。
- 社区划分与采样:通过图嵌入技术划分社区,确保训练样本的语义一致性。

创新方法
- 双向匹配策略:传统方法仅依赖单向相似度,本研究通过双向约束(图像→文本+文本→图像)减少噪声干扰。
- 图文匹配环(Image-Text Matching Rings):定义若样本对( p=(img, text) )和( p^=(img^, text^) )满足( (img, text^) )与( (img^*, text) )均匹配,则构成闭环关联,增强训练样本的语义相关性。

2. 拓展图文对比学习架构

模型设计
- 损失函数扩展:在传统图像-文本对比损失(( \mathcal{L}{it} ))基础上,新增图像-图像(( \mathcal{L}{ii^} ))和文本-文本(( \mathcal{L}_{tt^} ))对比损失,权重由可学习参数( \alpha, \beta, \gamma )动态调整。
- 优化目标:最小化负样本对相似度,最大化正样本对相似度,公式如下:
[ \mathcal{L} = \alpha (\mathcal{L}{it} + \mathcal{L}{i^t^}) + \beta \mathcal{L}{ii^*} + \gamma \mathcal{L}{tt^*} ]

实验设置
- 多模态检索任务:测试图像→文本、文本→图像、图像→图像、文本→文本四种检索模式,以召回率(R@k)为指标。
- 图像分类任务:将类别标签转化为提示词模板(如“a picture of ”),构建图文匹配环。


四、主要研究结果

1. 多模态检索性能提升

  • 跨模态检索:在COCO数据集上,拓展方法(CLIP**)的R@1达52.2%,较基线CLIP(42.1%)提升10.1%;
  • 同模态检索:图像→图像检索的R@1提升显著(如AIC-CC数据集从7.5%增至15.3%),验证细粒度对齐的有效性。

2. 图像分类任务表现

  • 在CIFAR-100和MiniImageNet上,CLIP**的分类准确率分别提升4.8%和3.2%,表明同模态对比损失能减少模态偏差。

3. 损失收敛分析

  • 传统CLIP的跨模态损失收敛快但同模态损失振荡,而拓展方法使所有损失稳定收敛(图5-9),证明多任务约束的鲁棒性。

五、研究结论与价值

科学价值

  1. 理论创新:提出图文匹配环概念,为多模态数据关联挖掘提供新思路;
  2. 方法突破:首次将同模态对比损失引入CLIP框架,解决细粒度语义对齐问题。

应用价值

  1. 检索系统:提升电商平台(如MUGE)的跨模态搜索精度;
  2. 医疗影像:辅助影像报告生成中的语义匹配。

六、研究亮点

  1. 跨/同模态联合优化:通过双向匹配和动态损失权重,平衡全局与局部语义表征;
  2. 可扩展性:算法兼容视频、音频等多模态扩展(如文献[32-36]);
  3. 开源贡献:代码与数据集已公开,推动领域复现与改进。

七、其他价值

  • 工程意义:微调后的CLIP*模型参数量仅188M(CNCLIP),适合边缘设备部署;
  • 社会影响:为低资源语言(如中文)的多模态研究提供基准。

(注:文中实验数据均引自原文表5-9,方法论细节参考算法1及图1-4。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com