分享自:

基于强化学习的视觉感知增强检索生成框架

期刊:technical report qwen

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


VRAG-RL:基于强化学习的视觉感知增强检索生成框架

作者与机构
本研究由Qiuchen Wang、Ruixue Ding、Yu Zeng、Zehui Chen、Lin Chen、Shihang Wang、Pengjun Xie、Fei Huang和Feng Zhao(通讯作者)共同完成,团队成员来自阿里巴巴集团的Tongyi Lab。该研究以技术报告形式发布于arXiv平台,预印本编号为arXiv:2505.22019v2,提交于2025年6月3日。

学术背景
研究领域聚焦于多模态检索增强生成(Retrieval-Augmented Generation, RAG),旨在解决传统文本RAG方法在处理视觉丰富信息(如流程图、图表、布局复杂的文档)时的局限性。现有视觉RAG方法存在两大瓶颈:
1. 视觉感知不足:现有方法仅将图像简单嵌入上下文,缺乏对视觉特定感知过程的建模,导致模型无法充分激活视觉推理能力;
2. 检索效率低下:模型与搜索引擎交互时,因无法精准表达需求而导致检索结果不相关。

研究目标是通过强化学习(Reinforcement Learning, RL)框架VRAG-RL,赋予视觉语言模型(Vision-Language Models, VLMs)动态感知视觉信息的能力,实现从粗粒度到细粒度的渐进式推理。

研究流程与方法
1. 视觉感知动作空间设计
- 核心创新:定义了包含区域选择(select)、裁剪(crop)和缩放(zoom)的动作空间,使模型能通过视觉感知标记(如<region>)聚焦信息密集区域。
- 技术实现:模型通过边界框坐标[x_min, y_min, x_max, y_max]定位兴趣区域,从原始图像中裁剪并重新编码高分辨率区域(公式2),提升视觉token的密度。
- 数据扩展:采用多专家采样策略(Multi-Expert Sampling),利用大模型(π_lm)指导推理路径,小模型(π_em)精调坐标标注,生成高质量轨迹数据(公式3-6)。

  1. 强化学习训练框架

    • 交互流程:如算法1所示,模型通过多轮次与环境交互,动态调用搜索引擎或视觉感知动作。每轮次生成动作a_t ∼ π_θ(·|h_t−1),并根据轨迹历史h_t−1更新策略。
    • 奖励函数设计
      • 检索效率奖励(r_ret):基于改进的NDCG指标(公式7-9),鼓励模型优先检索相关图像;
      • 模式一致性奖励(r_pat):通过规则解析动作模式(如<search>标签);
      • 模型结果奖励(r_ans):使用Qwen2.5-7B作为评估模型,判断生成答案的正确性(公式11)。
    • 优化目标:采用分组相对策略优化(GRPO),最大化奖励与参考策略的KL散度平衡(公式13)。
  2. 实验验证

    • 数据集:在SlideVQA(幻灯片问答)、VidoSeek(视觉文档检索)和MMLongBench(多模态长文档理解)三个基准测试中评估。
    • 基线对比:包括文本/视觉基础的Vanilla RAG、ReAct RAG和Search-R1-vl。
    • 性能指标:模型基于二进制准确率(0/1)评估,VRAG-RL在Qwen2.5-VL-7B和3B模型上分别实现20%和30%的性能提升(表1)。

主要结果
1. 检索效率提升:如图4所示,VRAG-RL的Recall@1显著高于ReAct和直接检索方法,证明其能更精准定位相关信息。
2. 视觉感知优势:在MMLongBench中,布局(layout)、图表(chart)等视觉密集型任务表现突出(图5),验证了动作空间对高密度信息的处理能力。
3. 多轮推理稳定性:如表3所示,RL训练将无效动作率从9.4%降至5.1%,完成率从84.2%提升至97.1%,显著增强多步推理鲁棒性。

结论与价值
1. 科学价值
- 提出首个面向视觉丰富信息的RL框架,通过动态感知动作空间和混合奖励机制,解决了传统RAG在视觉推理中的关键瓶颈;
- 验证了模型在有限上下文长度内激活视觉推理能力的可行性,为多模态AGI(人工通用智能)的发展提供了新思路。
2. 应用价值
- 可应用于医疗影像分析、金融报告解读等需要高精度视觉理解的场景;
- 开源代码(GitHub仓库)和数据集为后续研究提供了基准工具。

研究亮点
1. 方法论创新:首次将视觉感知动作与RL结合,实现从粗粒度到细粒度的渐进式信息提取;
2. 技术突破:设计的检索效率奖励和模型评估奖励,解决了传统RAG中检索与生成脱节的问题;
3. 性能优势:在多项基准测试中刷新性能记录,尤其在视觉密集型任务上表现卓越。

其他发现
- 计算效率权衡:如图6所示,尽管多轮交互增加了延迟,但通过精准检索和感知动作避免了无效搜索,整体效率优于传统方法;
- 案例研究:图7-8展示了模型通过反射性推理定位关键信息的能力,例如在印度能源分布图中准确计算水井数量差异。


该研究通过系统性方法设计和实验验证,为多模态RAG领域提供了重要的理论和实践贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com