分享自:

基于Transformer的细粒度图像中文描述

期刊:吉林大学学报(理学版)DOI:10.13413/j.cnki.jdxblxb.2021389

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于Transformer的细粒度图像中文描述方法研究

作者及机构
本研究由肖雄1、徐伟峰1、王洪涛1、苏攀1(华北电力大学(保定)计算机系)和高思华2(中国民航大学计算机科学与技术学院)合作完成,发表于《吉林大学学报(理学版)》(Journal of Jilin University (Science Edition))2022年9月第60卷第5期。

学术背景
图像描述(image caption)是计算机视觉与自然语言处理的交叉领域,旨在从图像中生成自然语言描述。传统方法通常采用循环神经网络(RNN)作为解码器,但存在生成长句能力不足、缺乏细节语义信息的问题。此外,卷积神经网络(CNN)编码器提取的全局特征难以捕捉细粒度语义特征,导致生成的描述过于宽泛。本研究针对这些问题,提出了一种基于Transformer多头注意力(Multi-Head Attention, MHA)的细粒度图像中文描述模型,旨在融合全局与局部特征,提升描述的准确性和丰富性。

研究目标
1. 通过多头注意力机制融合图像的粗粒度全局特征和细粒度区域目标实体特征;
2. 增强模型对长句的生成能力;
3. 在中文图像描述数据集ICC上验证模型性能。

研究流程与方法

  1. 图像特征提取

    • 全局特征:使用预训练的Inception-ResNet提取图像的全局特征,通过全连接层和ReLU激活函数将特征维度转换为512维。
    • 局部特征:采用Faster R-CNN检测图像中的目标区域,映射到目标区域后,同样使用Inception-ResNet提取局部特征,并进行维度转换。
  2. Transformer结构设计

    • 编码器:包含6层编码器,每层采用多头注意力机制(8个头)融合全局和局部特征。为防止填充特征影响训练,添加掩码(mask)覆盖无效区域。
    • 解码器:同样包含6层解码器,通过词嵌入和位置编码生成文本序列。在训练阶段,使用交叉熵损失函数优化模型;在推理阶段,通过贪心搜索生成描述语句。
  3. 特征融合与注意力机制

    • 提出特征融合点积注意力(Feature Fusion Dot-Product Attention),将局部特征作为查询(Query),全局特征作为键(Key)和值(Value),通过注意力权重聚焦于目标区域。
    • 多头注意力的输出通过前馈网络(Feed Forward Network, FFN)进行非线性变换,增强特征表示能力。
  4. 实验验证

    • 数据集:使用ICC数据集,包含30万张图像,每张图像对应5句中文描述。训练集21万张,验证集3万张,测试集6万张。
    • 评价指标:采用BLEU@1-4、METEOR和CIDER衡量生成描述的准确性。
    • 对比模型:与GRU模型和仅使用全局特征的Transformer模型对比。

主要结果
1. 定量结果
- 本文模型在BLEU@1-4、METEOR和CIDER指标上均优于对比模型。例如,BLEU@1达到60.2%,较GRU模型(32.3%)和仅全局特征的Transformer模型(56.7%)显著提升。
- CIDER得分147.4,表明生成描述与人工标注的一致性更高。

  1. 定性分析

    • 可视化注意力权重显示,模型能够聚焦于图像中的目标区域(如“狗”“树”等),生成更具细节的描述。
    • 例如,对于包含多只狗的图像,模型能准确描述“一群狗在草地上玩耍”,而非笼统的“动物”。
  2. 消融实验

    • 移除局部特征后,模型性能下降,验证了多尺度特征融合的有效性。

结论与价值
1. 科学价值
- 提出了一种基于Transformer的细粒度图像描述框架,通过多头注意力融合多尺度特征,解决了传统RNN生成长句能力不足的问题。
- 首次在中文图像描述任务中验证了局部特征与全局特征融合的优越性。

  1. 应用价值
    • 可应用于图像检索、人机交互、视觉辅助等领域,例如为视障人士生成更精准的图像描述。

研究亮点
1. 方法创新:提出特征融合点积注意力机制,增强了模型对细粒度语义的捕捉能力。
2. 性能优势:在ICC数据集上全面超越基线模型,尤其在长句生成和细节描述方面表现突出。
3. 可解释性:通过注意力可视化,验证了模型聚焦目标区域的合理性。

其他有价值内容
- 实验部分对比了不同位置编码方式(一维与二维),发现一维编码更适用于图像与文本的融合任务。
- 开源了模型代码与预处理数据,便于后续研究复现和改进。


以上报告完整涵盖了研究的背景、方法、结果和意义,为相关领域的研究者提供了详实的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com