分享自:

基于深度学习的计算机图像描述自动转化模型构建

期刊:自动化与仪器仪表DOI:10.14016/j.cnki.1001-9227.2025.07.029

基于深度学习的计算机图像描述自动转化模型构建学术报告

作者及机构
本研究由西安航空职业技术学院的宋继红(1971—,高级实验师,研究方向为计算机技术、人工智能与机器学习)主导完成,发表于《自动化与仪器仪表》2025年第7期,基金支持来自陕西省教育科学“十四五”规划课题及校级科研项目。

学术背景
图像描述自动转化是计算机视觉与自然语言处理的交叉领域核心问题,旨在通过算法生成符合图像内容的自然语言描述。传统方法(如CNN-GRU或单一Transformer)因特征提取不充分,导致描述准确性低、语义连贯性差。本研究针对此问题,提出融合ResNeXt-101网络(局部特征提取)、ViT(Vision Transformer,全局特征提取)与改进LSTM(长短期记忆网络)的混合模型,结合通道注意力机制优化特征权重分配,以提升描述生成的准确性与丰富性。

研究流程与方法
1. 图像编码设计
- 特征提取:输入图像(224×224×3)经ResNeXt-101提取局部特征($I_g \in \mathbb{R}^{n \times c}$),ViT网络分割为16个Patch提取全局特征($I_r \in \mathbb{R}^{1 \times c}$),两者拼接为视觉特征$I_e$(式9)。
- 特征优化:引入通道注意力机制,通过1×1卷积压缩通道数至$c/r$($r=16$),经ReLU激活与自适应平均池化(式10-11)生成权重矩阵,筛选关键特征。

  1. 解码器改进

    • LSTM增强:标准LSTM仅依赖前一时刻单词信息,改进后隐层状态$h_{t-1}$累积所有历史单词信息(式12-13),增强上下文语义连贯性。
  2. 模型整合

    • 编码器(ResNeXt-101+ViT+通道注意力)与解码器(改进LSTM)通过全连接层融合,输出端采用束搜索(Beam Search)生成概率最高的3条描述语句。

实验验证
- 数据集:MSCOCO-2019(23万张图像,8:2划分训练/测试集),人工标注3条参考描述作为基准。
- 评价指标:BLEU-4(n-gram匹配)、ROUGE-L(最长公共子序列)、SPICE(场景图匹配度)。
- 结果对比
- 消融实验:基准模型(ResNeXt-101+ViT+LSTM)BLEU-4为68.82%,加入通道注意力后提升至75.59%,进一步改进LSTM后达91.45%,显著优于传统模型(CNN-GRU:73.24%,Transformer:80.06%)。
- 泛化性验证:迭代周期40时指标最优(BLEU-4:91.45%,ROUGE-L:58.06,SPICE:22.37),接近人工标注水平(93.58%,57.58,22.46)。

结论与价值
1. 方法创新性
- 首次联合ResNeXt-101与ViT实现局部-全局特征互补,通道注意力机制有效抑制无关区域干扰。
- 改进LSTM的隐层状态累积机制解决了长距离语义依赖问题。
2. 应用价值:模型生成的描述语句语法正确、语义丰富,可应用于智能辅助系统(如视障人士图像理解)、多媒体内容自动化标注等领域。

研究亮点
- 多模态特征融合:局部与全局特征联合提取策略克服了单一编码器的局限性。
- 动态权重分配:通道注意力机制自适应强化关键特征,提升解码器输入质量。
- 工程实用性:在GTX1080Ti硬件环境下实现高效训练(40周期),具备工业化部署潜力。

其他发现
实验表明,模型对复杂场景(如多物体交互)的描述仍存在细微偏差,未来可通过引入语义分割网络进一步优化区域特征关联性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com