分享自:

基于多层次信息检索增强的知识视觉问答生成方法

期刊:2024 Association for Computational Linguistics

这篇文档属于类型a,是一篇关于原创研究的学术论文。以下是详细的学术报告:


作者及机构
本研究由Omar Adjali、Olivier Ferret(均来自法国巴黎萨克雷大学CEA LIST研究所)以及Sahar Ghannay(巴黎萨克雷大学CNRS LISN研究所)、Hervé Le Borgne(巴黎萨克雷大学CEA LIST研究所)合作完成。论文发表于*Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing*(EMNLP 2024),会议时间为2024年11月12日至16日。


学术背景
本研究属于知识增强的视觉问答(Knowledge-based Visual Question Answering, KB-VQA)领域,旨在通过结合文本、视觉信息及外部知识库(Knowledge Base, KB)来回答涉及实体的复杂问题。传统KB-VQA系统通常分为两个独立步骤:信息检索(Retrieval)和阅读理解(Reading Comprehension),但两者缺乏协同优化,导致检索结果可能无法有效支持答案生成。

近年来,检索增强生成(Retrieval-Augmented Generation, RAG)技术通过将生成答案作为检索器的反馈信号,缓解了这一问题。然而,现有RAG方法仅依赖从知识库中检索的伪相关段落(pseudo-relevant passages),可能因检索内容不准确而误导生成过程。为此,本研究提出了一种多级信息检索增强生成(Multi-level Information RAG, MIRAG)方法,通过实体检索和查询扩展(Query Expansion)提升答案生成的准确性。

研究目标包括:
1. 设计一种端到端训练框架,联合优化实体检索、段落检索和答案生成;
2. 验证多级检索策略对KB-VQA任务性能的提升;
3. 在VIQUAE基准测试中实现最先进(State-of-the-Art, SOTA)性能。


研究流程与方法
研究分为以下核心步骤:

  1. 实体检索(Entity Retrieval)

    • 研究对象:VIQUAE数据集中的2,397个唯一实体,外部知识库包含149万实体和1,180万段落。
    • 方法:采用基于CLIP的双编码器(Dual Encoder)模型,将问题图像与实体标题映射到同一嵌入空间,通过最大内积搜索(Maximum Inner Product Search, MIPS)检索最相关的k个实体。
    • 创新点:提出跨模态对比学习预训练策略(公式7),增强图像与文本表征的对齐能力。
  2. 查询扩展(Query Expansion)

    • 将检索到的实体标题附加到原始问题文本中,生成扩展查询,以丰富后续段落检索的上下文信息。
  3. 段落检索(Passage Retrieval)

    • 使用基于BERT的密集段落检索器(Dense Passage Retriever, DPR),对扩展查询进行编码,并从知识库中检索最相关的m个段落。
    • 训练策略:通过伪相关对比学习(Pseudo-Relevant Contrastive Learning)预训练DPR模型,优化段落与问题的匹配度。
  4. 答案生成(Answer Generation)

    • 采用编码器-解码器架构(如T5-large或BLIP2-Flan-T5-XL),将检索到的段落与问题拼接后输入生成模型。
    • 联合训练损失(公式6):通过端到端反向传播,联合优化实体检索概率、段落检索概率和答案生成概率。
  5. 实验设置

    • 数据集:VIQUAE基准测试,其中95.2%的问题需依赖外部知识回答。
    • 评估指标:答案生成的F1分数和精确匹配(Exact Match, EM),以及检索阶段的P@1、P@20和MRR@100。
    • 基线对比:包括传统RAG、多模态融合RAG(SBF-RAG)及文献中的ECA、ILF等方法。

主要结果
1. 性能提升
- MIRAG(BLIP2)在VIQUAE测试集上达到EM 36.6和F1 41.2,显著优于所有基线(如PALM 540B模型的EM 31.5)。
- 实体检索的MRR@100提升至43.9(T5-large),验证了多级检索的有效性。

  1. 关键发现

    • 实体检索的贡献:即使仅检索少量实体(如k=3),也能显著提升答案生成质量(图2)。
    • 联合训练的优势:端到端训练使生成模型能动态筛选伪相关段落,聚焦于实际相关的内容(表5)。
    • 模型规模的影响:BLIP2(39亿参数)的性能优于T5-large(7.38亿参数),但后者在检索任务中表现更优,表明生成能力与检索精度需平衡。
  2. 局限性

    • 当前方法仅依赖图像进行实体检索,未充分利用多模态查询信息;
    • 对图像中多实体的歧义问题处理不足。

结论与价值
1. 科学价值
- 提出首个融合实体级与段落级检索的RAG框架,为KB-VQA任务提供了新的端到端训练范式。
- 验证了查询扩展对多级知识检索的促进作用,为后续研究提供了可扩展的设计思路。

  1. 应用价值
    • 可应用于需外部知识的视觉问答场景,如医疗诊断、教育辅助等。
    • 开源代码(GitHub)和预训练模型便于社区复现与改进。

研究亮点
1. 方法创新:首次将实体检索与查询扩展引入RAG,通过多级粒度检索提升知识利用率。
2. 性能突破:在VIQUAE基准上实现SOTA,且计算成本可控(单GPU训练)。
3. 理论贡献:提出联合训练损失函数,为多任务协同优化提供了数学基础。


其他有价值内容
- 附录中提供了实体检索预训练细节(附录C)、计算成本分析(附录B)及定性案例(图4-5),显示MIRAG能更精准定位关键实体(如“Buddy Holly”案例中正确预测死亡月份)。
- 作者指出未来可探索多模态密集检索(如FLMR)以进一步提升性能。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com