WebShaper：通过信息寻求形式化进行数据合成

分享自：
WebShaper：通过信息寻求形式化进行数据合成

期刊:tongyi lab , alibaba group
阿里巴巴集团Tongyi Lab的研究团队（包括Zhengwei Tao、Jialong Wu等共同第一作者）于2025年7月22日发布了一项名为《WebShaper》的研究成果，该研究聚焦于大语言模型（LLM）驱动的智能代理（agent）在信息检索（information-seeking, IS）任务中的训练数据合成方法。研究通过建立基于集合论的形式化框架，解决了现有信息驱动范式（information-driven paradigm）存在的结构不一致性和知识覆盖局限问题，并在GAIA和WebWalkerQA基准测试中实现了开源IS代理的最优性能。
学术背景信息检索是LLM智能代理实现开放域复杂任务的核心能力，但高质量训练数据的稀缺严重制约了其发展。传统方法采用“信息驱动”范式：先收集网络数据，再基于检索结果生成问题。这种方式存在两大缺陷：
 1. 信息结构与推理结构不一致：LLM在生成自然语言问题时可能无法完全理解信息结构，导致答案错误；
 2. 数据冗余与多样性不足：无序检索会引入大量同质化信息，限制知识覆盖范围。
 为此，研究团队提出“形式化驱动”（formalization-driven）的新范式，通过集合论构建知识投影（Knowledge Projection, KP）单元，以操作组合控制推理路径，实现结构化数据合成。
研究方法与流程1. 任务形式化设计研究首次将IS任务定义为集合论运算：
 - 知识投影（KP）：给定实体集合V和关系R，KP定义为 ( R(V) = {u | \exists v \in V, (u,v) \in R } )，例如“1990年代出生的人”可表示为 ( R_{bornin}({90s}) )；
 - 运算规则：通过并集（∪）处理不确定性条件（如“2000-2010年间参赛的球员”），通过交集（∩）组合多条件约束（如“2000年参赛且90年代出生的球员”）。
 目标变量T通过递归KP运算得到，问题形式化为 ( q(T) \triangleq ?T )。
2. 数据合成流程种子问题构建：
 - 基于Wikipedia超链接随机游走生成初始问题，使用WebDancer框架过滤低质量数据，保留18,000条种子问题 ( q_1(T) )。
多步代理扩展：
 - KP表示法：将形式化问题转换为三元组列表（如 [[v@x, playAt, c@2004_2005], [v@x, bornIn, c@90s]]），支持递归结构扁平化；
 - 分层扩展策略：通过遍历知识图谱的叶节点常量，避免冗余和推理捷径（见图4c）。扩展器（Expander）代理基于React框架，配备三种工具：
 - *Search*：按形式化需求检索网络知识；
 - *Summarize*：实现KP并集运算（如合并多个年份的球员数据）；
 - *Validate*：验证子问题与常量的一致性。
轨迹构建与训练：
 - 使用QWQ模型生成5次任务轨迹，过滤错误和重复数据，最终保留5,000条高质量轨迹；
 - 训练分为监督微调（SFT）和强化学习（RL）两阶段，采用GRPO算法优化策略。
主要结果基准测试性能：
在GAIA测试中，WebShaper-72B以60.1分超越第二名WebSailor 4.7分（表1）；
 
WebWalkerQA测试中达到52.2分，显著优于WebDancer（47.9分）等基线方法。
 
数据质量分析：
领域覆盖：合成数据涵盖体育（21%）、学术（17%）、政治（15%）等多元主题（图5）；
 
工具调用复杂度：WebShaper任务平均搜索次数达3-30次，远超基线方法（图8a-c），体现更强的多跳推理能力。
 
消融实验：
形式化方法比自然语言合成提升8-12分（图7a）；
 
分层扩展策略较序列式结构提高5-9分（图7b）。
结论与价值科学价值：
提出首个基于集合论的IS任务形式化框架，为智能代理的推理结构设计提供数学基础；
 
开发Agentic Expander实现自动化、可验证的数据合成，推动LLM训练从“数据拟合”转向“结构可控”。
 
应用价值：
开源数据集和模型（GitHub/HuggingFace/ModelScope）可支持复杂问答、深度搜索等场景；
 
形式化方法可扩展至数学证明、知识图谱问答等领域。
研究亮点方法论创新：将形式化语言引入数据合成，解决信息驱动范式的结构一致性难题；
 
技术突破：KP运算和分层扩展策略实现推理路径的精确控制；
 
性能标杆：首个在GAIA测试中突破60分的开源IS代理。
 
案例研究（图9）显示，形式化问题如“分析中世纪北欧与北美原住民接触的考古论文作者”需通过多变量链式推理，避免了传统方法的冗余描述和单跳推理缺陷。该研究为LLM智能代理的认知能力提升提供了新范式。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问