这篇文档属于 类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由香港理工大学(The Hong Kong Polytechnic University)的Junnan Dong、Qinggang Zhang、Huachi Zhou、Pai Zheng、Xiao Huang*(通讯作者)及Rice大学的Daochen Zha合作完成,发表于2024年8月的 *Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)*(ACL 2024),页码2417–2429。
研究领域:本研究属于多模态人工智能领域,聚焦于知识驱动的视觉问答(Knowledge-based Visual Question Answering, KVQA),即通过结合外部知识(如知识图谱)回答与图像相关的复杂问题。
研究动机:尽管大语言模型(LLMs)已被尝试用作隐式知识源,但其存在幻觉生成(hallucination)问题,且多源知识(如图像、知识图谱、LLMs)在复杂场景中难以对齐。现有方法多为模态无关的简单拼接,缺乏跨模态推理能力。
研究目标:提出一种模态感知集成框架(Modality-Aware Integration with LLMs, MAIL),通过两阶段提示策略和伪孪生图媒介融合(Pseudo-Siamese Graph Medium Fusion, PS-GMF),实现图像理解与知识推理的协同优化。
场景图构建(Scene Graph Construction)
at_location、物体属性has_color),通过硬提示模板引导LLMs生成场景图三元组(如(sakura, at_location, tree))。概念图构建(Concept Graph Construction)
(coat, used_for, keep warm))链接,形成概念图,补充图像中缺失的语义信息。伪孪生图媒介融合(PS-GMF)
训练目标
性能对比
消融实验
案例研究
科学价值:
1. 提出首个模态感知的LLMs集成框架,解决了多源知识对齐与幻觉生成的挑战。
2. 设计的PS-GMF算法为多模态图融合提供了新范式,平衡了模态内学习与模态间交互。
应用价值:
1. 可辅助视障用户理解复杂视觉场景,提升无障碍技术实用性。
2. 框架可扩展至其他需多模态推理的任务(如医疗图像诊断)。
当前框架依赖结构化知识图谱,难以处理主观问题(如是非问答)。未来计划引入生成组件以扩展应用场景。
此报告完整涵盖了研究的背景、方法、结果与意义,符合学术传播的严谨性与完整性要求。