分享自:

WebShaper:通过信息寻求形式化进行数据合成

期刊:tongyi lab , alibaba group

阿里巴巴集团Tongyi Lab的研究团队(包括Zhengwei Tao、Jialong Wu等共同第一作者)于2025年7月22日发布了一项名为《WebShaper》的研究成果,该研究聚焦于大语言模型(LLM)驱动的智能代理(agent)在信息检索(information-seeking, IS)任务中的训练数据合成方法。研究通过建立基于集合论的形式化框架,解决了现有信息驱动范式(information-driven paradigm)存在的结构不一致性和知识覆盖局限问题,并在GAIA和WebWalkerQA基准测试中实现了开源IS代理的最优性能。

学术背景

信息检索是LLM智能代理实现开放域复杂任务的核心能力,但高质量训练数据的稀缺严重制约了其发展。传统方法采用“信息驱动”范式:先收集网络数据,再基于检索结果生成问题。这种方式存在两大缺陷:
1. 信息结构与推理结构不一致:LLM在生成自然语言问题时可能无法完全理解信息结构,导致答案错误;
2. 数据冗余与多样性不足:无序检索会引入大量同质化信息,限制知识覆盖范围。
为此,研究团队提出“形式化驱动”(formalization-driven)的新范式,通过集合论构建知识投影(Knowledge Projection, KP)单元,以操作组合控制推理路径,实现结构化数据合成。

研究方法与流程

1. 任务形式化设计

研究首次将IS任务定义为集合论运算:
- 知识投影(KP):给定实体集合V和关系R,KP定义为 ( R(V) = {u | \exists v \in V, (u,v) \in R } ),例如“1990年代出生的人”可表示为 ( R_{bornin}({90s}) );
- 运算规则:通过并集(∪)处理不确定性条件(如“2000-2010年间参赛的球员”),通过交集(∩)组合多条件约束(如“2000年参赛且90年代出生的球员”)。
目标变量T通过递归KP运算得到,问题形式化为 ( q(T) \triangleq ?T )。

2. 数据合成流程

种子问题构建
- 基于Wikipedia超链接随机游走生成初始问题,使用WebDancer框架过滤低质量数据,保留18,000条种子问题 ( q_1(T) )。

多步代理扩展
- KP表示法:将形式化问题转换为三元组列表(如 [[v@x, playAt, c@2004_2005], [v@x, bornIn, c@90s]]),支持递归结构扁平化;
- 分层扩展策略:通过遍历知识图谱的叶节点常量,避免冗余和推理捷径(见图4c)。扩展器(Expander)代理基于React框架,配备三种工具:
- *Search*:按形式化需求检索网络知识;
- *Summarize*:实现KP并集运算(如合并多个年份的球员数据);
- *Validate*:验证子问题与常量的一致性。

轨迹构建与训练
- 使用QWQ模型生成5次任务轨迹,过滤错误和重复数据,最终保留5,000条高质量轨迹;
- 训练分为监督微调(SFT)和强化学习(RL)两阶段,采用GRPO算法优化策略。

主要结果

  1. 基准测试性能

    • 在GAIA测试中,WebShaper-72B以60.1分超越第二名WebSailor 4.7分(表1);
    • WebWalkerQA测试中达到52.2分,显著优于WebDancer(47.9分)等基线方法。
  2. 数据质量分析

    • 领域覆盖:合成数据涵盖体育(21%)、学术(17%)、政治(15%)等多元主题(图5);
    • 工具调用复杂度:WebShaper任务平均搜索次数达3-30次,远超基线方法(图8a-c),体现更强的多跳推理能力。
  3. 消融实验

    • 形式化方法比自然语言合成提升8-12分(图7a);
    • 分层扩展策略较序列式结构提高5-9分(图7b)。

结论与价值

  1. 科学价值

    • 提出首个基于集合论的IS任务形式化框架,为智能代理的推理结构设计提供数学基础;
    • 开发Agentic Expander实现自动化、可验证的数据合成,推动LLM训练从“数据拟合”转向“结构可控”。
  2. 应用价值

    • 开源数据集和模型(GitHub/HuggingFace/ModelScope)可支持复杂问答、深度搜索等场景;
    • 形式化方法可扩展至数学证明、知识图谱问答等领域。

研究亮点

  1. 方法论创新:将形式化语言引入数据合成,解决信息驱动范式的结构一致性难题;
  2. 技术突破:KP运算和分层扩展策略实现推理路径的精确控制;
  3. 性能标杆:首个在GAIA测试中突破60分的开源IS代理。

案例研究(图9)显示,形式化问题如“分析中世纪北欧与北美原住民接触的考古论文作者”需通过多变量链式推理,避免了传统方法的冗余描述和单跳推理缺陷。该研究为LLM智能代理的认知能力提升提供了新范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com