分享自:

一种结合全局和局部特征的图像描述生成模型

期刊:journal of applied sciences—electronics and information engineeringDOI:10.3969/j.issn.0255-8297.2019.04.007

基于全局与局部特征融合的图像描述生成模型研究进展

作者及发表信息
本文由湖北工业大学计算机学院的靳华中、刘潇龙、胡梓珂合作完成,发表于2019年7月的《Journal of Applied Sciences—Electronics and Information Engineering》(第37卷第4期),DOI编号为10.3969/j.issn.0255-8297.2019.04.007。研究得到国家重点研发计划项目(No.2016YFC0702000)和湖北省教育厅基金(No.省2014277)资助。


学术背景与研究目标
图像描述生成(Image Caption Generation)是计算机视觉与自然语言处理的交叉领域,旨在通过算法自动生成描述图像内容的自然语言语句。传统方法依赖局部特征(如目标检测)生成描述,但忽略了全局场景信息,导致生成的语句缺乏对图像整体语义的准确表达。本文针对这一问题,提出了一种结合全局与局部特征的注意力机制模型,旨在提升描述语句的完整性和准确性。研究背景基于以下关键点:
1. 技术瓶颈:现有基于注意力机制的模型(如Soft-Attention)仅关注局部特征,难以捕捉图像场景的整体信息。
2. 跨领域需求:图像描述生成在语义检索、视觉辅助(如视障人士辅助系统)等领域有重要应用价值。
3. 方法创新:通过融合InceptionV3(局部特征)和VGG16(全局特征)的多尺度特征,结合长短期记忆网络(LSTM, Long Short-Term Memory)解码,实现更全面的图像语义建模。


研究方法与流程
1. 编码器设计
- 局部特征提取:采用InceptionV3网络提取图像的局部特征,保留Softmax前的8×8×512维卷积特征,拉伸为64×512维向量。
- 全局特征提取:使用VGG16模型提取1×4096维全局特征,表征图像整体场景(如“球场”“机场”)。
- 特征融合:将两类特征分别通过256单元的全连接层降维,全局特征扩展为64×256维后与局部特征拼接,形成融合编码结果。

  1. 注意力机制
    采用Bahdanau注意力模型,动态计算生成每个单词时对图像不同区域的关注权重(α(t,t’))。通过Softmax归一化权重,生成上下文向量(Context Vector),公式如下:
    [ \text{context}(t) = \sum_{t’=1}^{64} \alpha(t,t’) a(t’) ]
    其中,a(t’)为编码器输出的第t’个特征,α(t,t’)由LSTM隐藏状态ht-1和特征a(t’)共同决定。

  2. 解码器设计

    • LSTM结构:通过遗忘门(ft)、输入门(it)、输出门(ot)控制信息流动,更新细胞状态(ct)和隐藏状态(ht)。公式如下:
      [ f_t = \sigma(Wf [h{t-1}, x_t] + b_f) \ i_t = \sigma(Wi [h{t-1}, x_t] + b_i) \ o_t = \sigma(Wo [h{t-1}, x_t] + b_o) ]
    • 语言生成:基于5000词词汇表,通过注意力加权后的上下文向量生成单词概率分布,逐步输出完整语句。
  3. 实验设置

    • 数据集:使用MSCOCO数据集(训练/验证/测试集各4万幅图像,每图5句标注)。
    • 参数配置:Adam优化器(学习率0.01,Batch Size 128),在RTX2070显卡上训练15小时。
    • 评价指标:BLEU-1~4、METEOR、ROUGE_L,对比Google NIC、Soft-Attention等基线模型。

主要结果与分析
1. 定量结果
本文模型在MSCOCO测试集上显著优于基线:
- BLEU-1达73.1(Soft-Attention为70.7),BLEU-4提升4.6个百分点至28.9。
- METEOR和ROUGE_L分别达到25.3和53.6,证明生成语句更贴近人工标注。

  1. 定性分析

    • 场景理解优化:如图5所示,生成“a tennis court with a net”时,模型注意力集中于球场、球网等关键区域,而Soft-Attention仅关注局部(如观众席)。
    • 多目标关联:对于包含“泰迪熊”的图像,模型通过全局特征捕捉熊与环境的比例关系,生成“a large teddy bear sitting on a chair”,优于局部模型生成的碎片化描述。
  2. 注意力可视化
    通过热力图对比显示,本文模型在生成非视觉词汇(如“the”)时降低对图像的依赖,而在生成实体词(如“airplane”)时精准关联飞机与跑道区域,验证了自适应注意力机制的有效性。


结论与价值
1. 科学价值
- 提出多尺度特征融合框架,解决了传统方法忽视全局语义的问题。
- 设计自适应注意力机制,平衡局部目标与场景信息的贡献,提升生成语句的连贯性。

  1. 应用价值
    • 为图像检索、视频标注等任务提供更准确的语义描述。
    • 在辅助视觉障碍者的场景中,可生成更贴近人类认知的图像解释。

研究亮点
1. 方法创新:首次将InceptionV3与VGG16特征融合,结合动态注意力机制,实现细粒度图像理解。
2. 性能突破:在BLEU-4等指标上达到同期最优,且生成语句的场景一致性显著提升。
3. 可解释性:通过注意力热力图直观展示模型决策过程,增强算法透明度。

其他贡献
- 公开实验代码与参数配置,推动领域复现与改进。
- 提出未来方向:结合目标检测(如Faster R-CNN)进一步优化局部特征提取。

(注:本文实验细节与可视化案例可参考原图4、图5及表1数据。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com