分享自:

视觉网页竞技场:评估多模态代理在基于视觉的网页任务上的表现

期刊:proceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: long papers)

《VisualWebArena:评估多模态代理在真实视觉网页任务中的表现》学术报告

作者及发表信息
本研究的核心作者团队来自卡内基梅隆大学(Carnegie Mellon University),包括Jing Yu Koh、Robert Lo、Lawrence Jang、Vikram Duvvur等,通讯作者为Daniel Fried和Ruslan Salakhutdinov。该研究发表于Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024) 第1卷,页码881–905,会议时间为2024年8月11–16日。

学术背景
随着人工智能的发展,自主代理(autonomous agents)在自动化计算机任务中展现出潜力。然而,现有基准测试(benchmarks)主要针对纯文本代理,忽略了现实任务中视觉信息的关键作用。例如,人类在网页购物时依赖商品颜色或图片,而纯文本模型难以处理此类视觉信息。为此,研究团队提出VisualWebArena,首个专注于评估多模态代理(multimodal agents)在真实视觉网页任务中性能的基准测试框架。其目标是通过模拟人类与网页的交互,推动多模态代理在视觉理解、语言处理和动作执行方面的能力发展。

研究流程与方法
1. 基准环境构建
- 任务设计:团队创建了910个真实任务,覆盖三类网页环境:Classifieds(新开发的分类广告网站,含65,955条真实数据)、Shopping(基于Amazon数据的电商环境)和Reddit(社交论坛环境)。
- 视觉与动作难度分级:任务按视觉复杂度(如颜色识别、OCR需求)和动作步骤数分为EasyMediumHard三级。例如,需OCR识别的任务占17.1%,而25.2%的任务需处理输入图像(如图片搜索商品)。

  1. 多模态代理的评估方法

    • 观察空间(Observation Space):提供四种网页内容表示方式:
      • HTML DOM树(传统网页结构)
      • 无障碍树(Accessibility Tree)(简化结构,适配辅助技术)
      • 网页截图(RGB像素阵列)
      • 创新性Set-of-Marks (SOM)表示:为每个可交互元素标注边界框和唯一ID(图2),便于代理直接引用。
    • 动作空间(Action Space):定义12类动作(表1),如点击、输入文本、切换标签页等,通过元素ID而非坐标定位,减少低级控制负担。
  2. 实验与数据分析

    • 基线模型测试:评估了包括纯文本大语言模型(LLMs,如GPT-4、Gemini-Pro)、图像描述增强模型(BLIP-2、LLaVA)和多模态模型(GPT-4V、Gemini-Pro)在内的多类代理。
    • 评估指标:采用执行导向的奖励函数,如:
      • 信息检索任务:通过精确匹配(Exact Match)、模糊语义匹配(Fuzzy Match)或视觉问答(VQA)评分。
      • 导航与动作任务:检查最终网页状态是否达成目标(如修改价格后页面是否更新)。

主要结果与发现
1. 多模态代理显著优于纯文本模型
- GPT-4V+SOM表现最佳,任务成功率(16.37%)远超纯文本GPT-4(7.25%)。在需视觉匹配的任务中(如“找到并屏蔽发布某图片的用户”),SOM表示通过简化动作空间提升效率(图3)。
- OCR仍是瓶颈:需OCR的任务成功率(13.4%)低于无需OCR任务(16.9%),表明现有模型对细粒度文本识别能力不足。

  1. 人类对比与局限性
    • 人类测试者平均成功率达88.7%,远高于所有模型,突显当前代理在复杂任务(如跨页面搜索)中的不足。常见错误包括过早放弃(如未滚动页面即判定任务失败)或动作循环(如反复切换标签页)。

结论与价值
VisualWebArena填补了多模态代理评估的空白,为未来研究提供以下方向:
1. 科学价值:揭示了纯文本模型的局限性,强调视觉-语言融合的必要性。例如,SOM表示将动作空间抽象化,为高复杂度网页交互提供了新思路。
2. 应用价值:可推动辅助技术(如视障用户网页导航)和自动化工具(如电商机器人)的开发。

研究亮点
1. 创新基准设计:首个涵盖真实视觉任务、跨多站点环境的测试框架,包含不可完成任务(5.1%)以评估代理的早期终止能力。
2. SOM表示的突破:通过视觉元素ID直接映射,减少模型对低层级控制的依赖,提升任务完成率(图13)。
3. 开源与可复现性:所有网页环境均自托管,确保实验的一致性和透明度。

未来方向
研究团队建议探索长上下文建模(如轨迹记忆)和微调策略(如基于交互数据的指令微调),以进一步缩小与人类表现的差距。伦理部分强调需防范代理在真实场景中的潜在偏见与滥用风险。

(注:术语翻译示例:Set-of-Marks (SOM)表示→标记集表示;Optical Character Recognition (OCR)→光学字符识别)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com