阿里巴巴集团Tongyi Lab的研究团队(包括Zhengwei Tao、Jialong Wu等共同第一作者)于2025年7月22日发布了一项名为《WebShaper》的研究成果,该研究聚焦于大语言模型(LLM)驱动的智能代理(agent)在信息检索(information-seeking, IS)任务中的训练数据合成方法。研究通过建立基于集合论的形式化框架,解决了现有信息驱动范式(information-driven paradigm)存在的结构不一致性和知识覆盖局限问题,并在GAIA和WebWalkerQA基准测试中实现了开源IS代理的最优性能。
信息检索是LLM智能代理实现开放域复杂任务的核心能力,但高质量训练数据的稀缺严重制约了其发展。传统方法采用“信息驱动”范式:先收集网络数据,再基于检索结果生成问题。这种方式存在两大缺陷:
1. 信息结构与推理结构不一致:LLM在生成自然语言问题时可能无法完全理解信息结构,导致答案错误;
2. 数据冗余与多样性不足:无序检索会引入大量同质化信息,限制知识覆盖范围。
为此,研究团队提出“形式化驱动”(formalization-driven)的新范式,通过集合论构建知识投影(Knowledge Projection, KP)单元,以操作组合控制推理路径,实现结构化数据合成。
研究首次将IS任务定义为集合论运算:
- 知识投影(KP):给定实体集合V和关系R,KP定义为 ( R(V) = {u | \exists v \in V, (u,v) \in R } ),例如“1990年代出生的人”可表示为 ( R_{bornin}({90s}) );
- 运算规则:通过并集(∪)处理不确定性条件(如“2000-2010年间参赛的球员”),通过交集(∩)组合多条件约束(如“2000年参赛且90年代出生的球员”)。
目标变量T通过递归KP运算得到,问题形式化为 ( q(T) \triangleq ?T )。
种子问题构建:
- 基于Wikipedia超链接随机游走生成初始问题,使用WebDancer框架过滤低质量数据,保留18,000条种子问题 ( q_1(T) )。
多步代理扩展:
- KP表示法:将形式化问题转换为三元组列表(如 [[v@x, playAt, c@2004_2005], [v@x, bornIn, c@90s]]),支持递归结构扁平化;
- 分层扩展策略:通过遍历知识图谱的叶节点常量,避免冗余和推理捷径(见图4c)。扩展器(Expander)代理基于React框架,配备三种工具:
- *Search*:按形式化需求检索网络知识;
- *Summarize*:实现KP并集运算(如合并多个年份的球员数据);
- *Validate*:验证子问题与常量的一致性。
轨迹构建与训练:
- 使用QWQ模型生成5次任务轨迹,过滤错误和重复数据,最终保留5,000条高质量轨迹;
- 训练分为监督微调(SFT)和强化学习(RL)两阶段,采用GRPO算法优化策略。
基准测试性能:
数据质量分析:
消融实验:
科学价值:
应用价值:
案例研究(图9)显示,形式化问题如“分析中世纪北欧与北美原住民接触的考古论文作者”需通过多变量链式推理,避免了传统方法的冗余描述和单跳推理缺陷。该研究为LLM智能代理的认知能力提升提供了新范式。