REAL：在真实网站确定性仿真上评估自主代理的基准

分享自：
REAL：在真实网站确定性仿真上评估自主代理的基准

期刊:39th conference on neural information processing systems (NeurIPS 2025) track on datasets and benchmarks
关于REAL基准：在真实网站确定性模拟环境中评估自主智能体的学术研究报告
一、 研究团队与发表信息
本项研究由来自AGI公司（The AGI Company）、斯坦福大学、牛津大学、Contramont Research、IMCS UL以及Plato等多个机构的研究人员合作完成。主要作者包括Divyansh Garg、Diego Caples、Andis Draguns、Nikil Ravi、Pranav Putta、Naman Garg、Prannay Hebbar、Youngchul Joo、Jindong Gu、Charles London、Christian Schroeder de Witt、Sumeet Motwani等。该研究已提交至第39届神经信息处理系统大会（NeurIPS 2025）的数据集与基准测试（Datasets and Benchmarks）轨道，并已在公开平台发布。
二、 研究背景与目标
本研究属于人工智能领域，具体聚焦于自主智能体（Autonomous Agents） 的评估与训练。随着大型语言模型（Large Language Models, LLMs）在推理能力上的显著进步，人们对于开发能够自动化执行日常数字任务的智能体抱有很高期望，并预估其将产生巨大的经济影响。然而，当前基于LLM的智能体在可靠执行人类可以轻松完成的多轮网页交互任务时，仍然面临巨大挑战。阻碍其实际部署和进一步研究的关键瓶颈之一，是缺乏足够真实、可靠的网页交互训练与评估环境。
现有的网页智能体评估方法存在几个根本性局限：1）真实网站缺乏确定性（Determinism），其底层数据和用户界面（UX）流程不断变化，使得可重复评估几乎不可能；2）生产环境下的网站无法被配置以测试关键边缘情况（如缺货、网络延迟、错误恢复）；3）在真实网站上评估智能体存在安全风险（如产生支付、更改状态）和成本问题。尽管已有一些优秀工作（如WebArena、MiniWoB++），但它们往往引入了人为限制，例如高度受限的动作/观察空间、简化的任务和界面，无法完全反映真实网站的复杂性，并且难以作为强化学习（Reinforcement Learning, RL）的训练环境，因为难以定义清晰的奖励信号或观察动作后的状态变化。
为此，本研究团队提出了REAL（REAListic Autonomous Agent Evaluations） 基准与框架。其主要目标在于：创建一个高保真、确定性、可配置的真实网站模拟环境集合，并配套一套全面的评估任务与灵活的评估框架，以支持对自主网页智能体进行稳健（Robust）、可重复（Reproducible）且安全（Safe） 的能力评估。REAL旨在弥合现有基准与真实世界网页导航挑战之间的差距，推动开发出能力更强、更可靠的网页智能体。
三、 研究详细工作流程
本研究的工作流程可以概括为三个核心部分的构建与验证：环境构建、任务与评估框架设计、以及基准测试实施。
1. 环境构建过程： 研究团队精心挑选了11个广泛使用的消费级网站，涵盖电子商务、旅行、通讯、日程管理、专业社交、房地产、外卖等多个关键领域（例如，受Airbnb启发的StayNb、受Amazon启发的Omnizon、受Gmail启发的GoMail等）。这些网站的选择标准是多样性、高流量以及需要复杂的交互能力（如表单填写、支付、多步骤工作流、地图界面等）。
为了构建高保真且确定性的模拟环境，团队采用现代前端技术栈（React, Next.js）重新实现了这些网站的核心工作流程和界面。为确保可重复性（Reproducibility），所有环境都进行了“确定性”处理：固定所有可变数据（如产品价格、库存状态）、锁定时间相关元素（如日期选择器）、并移除了常见的反自动化机制（如验证码）。网站状态通过浏览器的本地存储（LocalStorage） 进行持久化管理，这使得研究人员可以在任何步骤检查状态变化，并为训练定义奖励信号。所有环境都公开托管，降低了研究人员使用的门槛。此外，环境通过URL参数支持高度可配置性（Configurability），可以模拟网络延迟、触发特定错误模式、修改应用逻辑参数（如折扣可用性）等，以测试智能体在各种边缘情况下的表现。
2. 任务与评估框架设计： REAL包含一套涵盖11个环境的112项评估任务。这些任务被设计为模拟日常复杂的用户交互，主要分为三类：信息检索任务（Information Retrieval Tasks）、基于动作的任务（Action-based Tasks） 以及组合任务（Combined Tasks）。任务难度分为简单、中等、困难，取决于所需的规划步骤、约束条件和推理深度。
评估框架将智能体与环境的交互建模为一个部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）。框架为智能体提供了两种主要的交互模式：通过Playwright进行高级别交互（模拟用户点击、输入等），或通过Chrome DevTools Protocol (CDP) 进行低级别控制（允许直接操作DOM、执行JavaScript等），从而兼容从开源到专有的各种智能体架构。
任务完成度的评估采用两种方法结合： * 对于基于动作的任务：采用程序化状态验证。当智能体标记任务完成时，框架会捕获初始和最终localStorage状态的差异，并与任务特定的预定义键值断言进行比对。只有所有断言完全匹配，任务才算成功。 * 对于信息检索任务：采用基于量规的LLM评判（Rubric-guided LLM Judge）。智能体提交最终文本回答，由一个LLM根据任务特定的详细量规（Rubric）来评判其准确性。
REAL提供了一个智能体工具套件（Agent Harness），简化了不同智能体实现的集成。它管理浏览器实例、状态跟踪，并处理任务完成信号，支持通过Playwright API、CDP或URL端点进行集成。
3. 基准测试实施与数据分析流程： 研究团队使用REAL基准对一个基线智能体（Baseline Agent） 结合多种前沿大语言模型进行了系统性的评估。评估对象包括闭源模型（如Claude 3.7 Sonnet、GPT-4o、Gemini 2.5 Pro等）和开源模型（如Llama系列、DeepSeek-V3等），同时也测试了专门的智能体框架（如Anthropic的Computer Use、OpenAI的Operator）。评估覆盖了全部112个任务，记录每个模型/智能体的端到端任务成功率。
数据分析主要集中在对不同模型在不同网站环境上的性能表现进行定量比较和定性分析。团队计算了每个模型的总体成功率，并分析了各模型在不同类型网站（如Topwork, FlyUnified）上的表现差异。此外，通过分析智能体的交互轨迹（Interaction Traces），研究团队识别了常见的失败模式，例如“未能充分识别失败和验证状态”以及“陷入导航死胡同且缺乏恢复能力”。作为参考，研究还进行了人类基线测试，参与者在每任务3分钟限时且不知晓具体网站的情况下，达到了96.42%的准确率，证明了任务的可行性并为智能体性能提供了参考点。
四、 主要研究结果
1. 模型性能量化结果： 评估结果显示，当前最先进的模型在REAL基准上的表现仍有巨大提升空间。表现最好的模型是Claude 3.7 Sonnet（思考版），其任务成功率仅为41.07%。紧随其后的是Gemini 2.5 Pro（38.39%）和OpenAI的推理模型o3（34.82%）。标准的预训练模型如GPT-4o成功率仅为14.29%。开源模型中，DeepSeek-V3表现最佳（19.64%），而较小规模的模型（如Llama 3.1-8B）成功率低于2%。这些数据清晰地表明，尽管大语言模型能力强大，但将其转化为可靠、自主的网页交互能力仍是一个未解决的重大挑战。专门设计的智能体框架中，Anthropic的Computer Use Agent取得了最佳成绩（42.90%），略高于使用基线智能体的最佳模型。
2. 任务与环境难度分析： 结果揭示了任务和环境的难度差异。例如，“Topwork”（模拟Upwork）和“FlyUnified”（模拟United Airlines）是 consistently 最具挑战性的环境，这表明涉及复杂表单、多步骤流程和特定领域约束的任务对当前智能体来说尤其困难。这为未来的研究指明了需要重点攻克的领域。
3. 定性观察与失败模式： 通过对交互轨迹的分析，研究发现了智能体常见的系统性缺陷： * 状态验证不足：智能体常常过度依赖其行动意图而非实际观察到的结果。例如，在添加商品到购物车的任务中，如果第一个商品添加成功而第二个因点击错误按钮失败，智能体可能仍会继续进行结账流程，并错误地认为任务已完成，而不会检查购物车的最终状态。 * 导航与恢复能力弱：当智能体进入非标准流程或意外状态（如子菜单、错误页面）时，往往缺乏有效回溯或寻找替代路径的直觉，导致陷入“死胡同”并无法完成任务。 这些观察结果直接关联到智能体规划、状态跟踪和错误恢复等核心能力的不足，为改进智能体架构提供了具体方向。
4. 结果对研究流程的支撑： 这些结果直接验证了REAL基准的价值和必要性。首先，它成功地区分出了不同模型和智能体框架在复杂网页任务上的能力差异。其次，低成功率（最高仅~41%）与高人类基线（~96%）之间的巨大差距，确凿地证明了当前自主智能体能力存在“关键缺口（Critical Gaps）”，这正是本研究立项所要揭示和解决的问题。最后，定性分析出的失败模式，为后续利用REAL进行针对性训练（如强化学习以改进状态验证）提供了明确的优化目标。
五、 研究结论与价值
本研究的核心结论是：REAL基准与框架的建立，为评估和提升自主网页智能体的能力与可靠性提供了一个至关重要的工具。它通过提供高保真、确定性、可配置且公开可访问的模拟环境，解决了当前该研究领域在可重复性、安全性和真实性方面面临的瓶颈。
其科学价值体现在： 1. 标准化评估：为社区提供了一个统一、严谨的测试平台，使得不同智能体之间的性能比较成为可能，推动了研究的可重复性和可比性。 2. 揭示能力边界：通过系统性的基准测试，定量和定性地揭示了当前最先进模型在真实世界网页任务上的具体不足，为未来研究指明了方向。 3. 支持训练与迭代：REAL不仅是一个评估工具，其确定性、状态可观测性和可配置性使其非常适合作为强化学习（RL） 和后训练（Post-training） 的环境。研究人员可以利用状态差异（State-diffs）或检索到的信息来定义奖励信号，生成合成轨迹数据，从而系统地提升智能体的能力。
其应用价值在于，通过推动更可靠、更强大的网页智能体的研发，有望最终实现自动化处理大量日常数字工作流程（如预订、购物、信息管理）的愿景，释放巨大的经济生产力。
六、 研究亮点
高保真与确定性的独特结合：REAL首次将真实网站的高保真模拟与完全确定性的环境控制相结合。这既保证了评估任务与现实世界的相关性，又确保了实验结果的严格可重复性，这是此前许多基准未能同时实现的。
灵活且全面的框架设计：研究提出的框架极具灵活性，支持从高级别（Playwright）到低级别（CDP）的多种交互模式，兼容开源和专有系统。其评估方法结合了程序化状态检查和LLM评判，能够全面评估信息检索和状态更改两类核心能力。
面向实际的研究导向：REAL的任务设计紧密围绕“具有经济价值的日常任务”，其网站选择覆盖了核心消费领域。这使得基于REAL的研究成果更容易向实际应用转化。
可配置性与可扩展性：环境的高度可配置性允许研究者模拟各种边缘情况和故障模式，这对于训练智能体的鲁棒性（Robustness） 至关重要。同时，框架易于集成新任务和新环境，具有良好的可扩展性。
丰富的诊断信息：通过localStorage跟踪和/finish端点，研究者可以深入检查智能体每一步操作导致的状态变化，这不仅有助于评估，更是理解和调试智能体行为的强大工具。
七、 其他有价值的内容
研究还展望了未来的工作方向，包括：扩展更困难的任务和长视野推理（Long-horizon Reasoning）任务；支持跨应用工作流（Cross-application Workflows）的测试；以及开发基于REAL的专用强化学习后训练工作流。此外，附录中提供了详细的技术架构、法律免责声明（强调其符合合理使用原则，仅用于科研）以及与其他相关工作（如WorkArena, WebArena, BrowserGym）的对比，体现了研究的严谨性和在学术脉络中的清晰定位。REAL的代码、环境和排行榜均已公开，极大地促进了该领域的开放协作与进步。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问