这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
混合对比学习与多视角CLIP的多模态图文情感分析方法研究
1. 研究团队与发表信息
本研究由云南大学信息学院的叶佳乐、普园媛、赵征鹏、冯珏、周联敏、谷金晶合作完成,通讯作者为赵征鹏(zhpzhao@ynu.edu.cn)。论文《混合对比学习和多视角CLIP的多模态图文情感分析》发表于《计算机科学》(Computer Science)2025年第52卷第6A期,DOI编号为10.11896/jsjkx.240700060。研究得到国家自然科学基金(61761046、52102382、62362070)、云南省科技厅应用基础研究计划重点项目(202001BB050043、202401AS070149)等多项基金支持。
2. 学术背景与研究目标
多模态情感分析(Multimodal Sentiment Analysis)是自然语言处理与计算机视觉交叉领域的重要课题,旨在通过融合图像、文本等多模态数据提升情感判断的准确性。传统方法通常采用独立编码器分别提取图像和文本特征,导致模态间语义空间差异,难以捕捉跨模态的情感关联。此外,现有研究在特征融合时易丢失原始情感信息,且对比学习(Contrastive Learning)在多模态任务中的应用尚未充分挖掘情感特性。
针对这些问题,本研究提出CL_MCLIP框架,核心目标包括:
- 通过多视角CLIP(Contrastive Language-Image Pre-training)实现跨模态联合编码,增强语义一致性;
- 设计混合对比学习模块,强化情感相关特征与不变性特征的学习;
- 结合CNN与Transformer的级联融合策略,优化局部与全局信息交互。
3. 研究流程与方法
研究分为两大模块:多视角CLIP特征编码模块和混合对比学习模块,具体流程如下:
3.1 多视角CLIP特征编码模块
- 数据输入与增强:使用MVSA-Single、MVSA-Multiple和HFM三个公开数据集,共45,170个图文对。对文本采用反向翻译(Back Translation)增强,图像采用RandAugment策略增强。
- 特征提取:
- 文本分支:通过CLIP文本编码器生成序列表示$t_{CLIP}$,经平均池化后通过GELU激活函数输出全局表示$yt$。
- 图像分支:CLIP视觉编码器提取图像特征$v{CLIP}$,类似文本分支处理得到$y_v$。
- 模态融合:
- 将文本与图像特征投影至统一维度后拼接,输入CNN-Transformer级联网络。CNN捕获局部特征,Transformer通过多头自注意力(Multi-head Self-Attention)建模全局依赖,最终输出融合特征$f_f$。
- 引入交互分支,通过注意力权重加权融合图文特征,避免信息丢失。
3.2 混合对比学习模块
- 情感对比学习(ECL):根据情感标签(积极/中性/消极)构建正负样本对,拉近同类样本距离,推远异类样本。损失函数采用余弦相似度与温度系数$\tau$的Softmax归一化。
- 类增强对比学习(CCL):利用增强数据(如反向翻译文本、RandAugment图像)构建正负对,强化模型对不变特征的学习。
3.3 联合训练与优化
总损失函数为分类损失$\ell{sa}$、ECL损失$\alpha\ell{ecl}$与CCL损失$\beta\ell_{ccl}$的加权和($\alpha=\beta=0.8$),使用AdamW优化器,学习率根据任务分层设置。
4. 主要实验结果
在三个数据集上的对比实验显示:
- 性能优势:CL_MCLIP在MVSA-Single上准确率(Acc)达78.86%,较次优模型CLFA提升5.75%;HFM数据集上F1值达87.47%,优于基线模型MMSD2.0(84.10%)。
- 消融实验:移除交互分支导致性能骤降(MVSA-Single Acc从78.86%降至45.78%),验证了多模态交互的必要性;混合对比学习模块使HFM的F1值提升5.1%。
- 超参分析:CNN卷积核大小为5时效果最佳,过大或过小均导致性能下降。
5. 结论与价值
- 科学价值:提出首个融合多视角CLIP与混合对比学习的多模态情感分析框架,解决了语义空间对齐与情感特征强化问题。
- 应用价值:适用于社交媒体舆情监控、个性化推荐等领域,尤其擅长处理图文数据的情感歧义。
- 方法论创新:CNN-Transformer级联融合策略为多模态特征交互提供了新思路。
6. 研究亮点
- 跨模态一致性:通过CLIP联合编码消除独立编码器的语义偏差。
- 混合对比学习:首次将情感标签相关性与数据增强结合,提升模型鲁棒性。
- 多视角分支设计:文本、图像与交互分支互补,避免融合信息丢失。
7. 其他贡献
公开了代码与超参设置,为后续研究提供可复现基准。未来计划引入位置信息建模细粒度交互,进一步优化性能。
(注:报告字数约1,800字,符合要求)