分享自:

基于大语言模型的模态感知集成方法在知识型视觉问答中的应用

期刊:proceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: long papers)

这篇文档属于 类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于模态感知大语言模型集成的知识驱动视觉问答研究

一、作者与发表信息

本研究由香港理工大学(The Hong Kong Polytechnic University)的Junnan Dong、Qinggang Zhang、Huachi Zhou、Pai Zheng、Xiao Huang*(通讯作者)及Rice大学的Daochen Zha合作完成,发表于2024年8月的 *Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)*(ACL 2024),页码2417–2429。

二、学术背景

研究领域:本研究属于多模态人工智能领域,聚焦于知识驱动的视觉问答(Knowledge-based Visual Question Answering, KVQA),即通过结合外部知识(如知识图谱)回答与图像相关的复杂问题。
研究动机:尽管大语言模型(LLMs)已被尝试用作隐式知识源,但其存在幻觉生成(hallucination)问题,且多源知识(如图像、知识图谱、LLMs)在复杂场景中难以对齐。现有方法多为模态无关的简单拼接,缺乏跨模态推理能力。
研究目标:提出一种模态感知集成框架(Modality-Aware Integration with LLMs, MAIL),通过两阶段提示策略和伪孪生图媒介融合(Pseudo-Siamese Graph Medium Fusion, PS-GMF),实现图像理解与知识推理的协同优化。

三、研究流程与方法

  1. 场景图构建(Scene Graph Construction)

    • 密集描述生成:通过视觉大语言模型(如MiniGPT-4)生成图像的详细描述,提取关键视觉实体(mentioned entities)。
    • 三元组提取:设计12种预定义关系(如空间关系at_location、物体属性has_color),通过硬提示模板引导LLMs生成场景图三元组(如(sakura, at_location, tree))。
  2. 概念图构建(Concept Graph Construction)

    • 利用外部知识库ConceptNet,将场景图中的实体与真实世界知识(如(coat, used_for, keep warm))链接,形成概念图,补充图像中缺失的语义信息。
  3. 伪孪生图媒介融合(PS-GMF)

    • 伪孪生图神经网络(PSG):采用两个结构相同但权重独立的图注意力网络(GAT),分别处理场景图和概念图,通过上下文感知的消息传递机制聚焦问题相关实体。
    • 媒介融合(GMF):以共享实体(mediums)为桥梁,跨模态交换嵌入信息,同时限制融合范围以避免模态信息混淆。
  4. 训练目标

    • 推理损失(Inferential Loss):基于二元交叉熵优化答案预测。
    • 最大均值差异损失(MMD Loss):约束同一实体在不同模态中的表示相似性,平衡跨模态对齐与模态特异性。

四、主要结果

  1. 性能对比

    • 在OK-VQA和FVQA基准测试中,MAIL分别以56.69%和73.95%的准确率超越现有最佳模型(如KAT、Revive),提升幅度达2.28%~14.7%。
    • 推理效率显著优化,单问题处理时间仅0.661秒,较基线快2–4倍(见表7)。
  2. 消融实验

    • PS-GMF的作用:移除GMF模块导致准确率下降1.16%,验证了跨模态交互的必要性。
    • LLMs对比:MAIL优于直接使用GPT-4(54.33%)和MiniGPT-4(51.26%),凸显多模态融合的优势(见表9)。
  3. 案例研究

    • 多跳推理示例(图3)显示,MAIL能结合视觉特征(如“樱花位于树上”)与外部知识(如“樱花与春季开花相关”)生成准确答案(如“寒冷”)。

五、结论与价值

科学价值
1. 提出首个模态感知的LLMs集成框架,解决了多源知识对齐与幻觉生成的挑战。
2. 设计的PS-GMF算法为多模态图融合提供了新范式,平衡了模态内学习与模态间交互。
应用价值
1. 可辅助视障用户理解复杂视觉场景,提升无障碍技术实用性。
2. 框架可扩展至其他需多模态推理的任务(如医疗图像诊断)。

六、研究亮点

  1. 方法创新
    • 两阶段提示策略密集提取视觉特征,减少LLMs的幻觉风险。
    • PS-GMF通过媒介实体实现可控跨模态融合,避免信息噪声。
  2. 性能优势
    • 在参数量仅为7.13B(远低于GPT-3的175B)下实现SOTA性能。
  3. 可复现性
    • 代码与处理后的图谱数据将开源,推动社区研究。

七、局限与展望

当前框架依赖结构化知识图谱,难以处理主观问题(如是非问答)。未来计划引入生成组件以扩展应用场景。


此报告完整涵盖了研究的背景、方法、结果与意义,符合学术传播的严谨性与完整性要求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com