分享自:

代理推理:一种通过代理工具增强大型语言模型推理的简化框架

期刊:proceedings of the 63rd annual meeting of the association for computational linguistics

学术报告:Agentic Reasoning框架——通过工具化智能体增强大语言模型推理能力

作者及发表信息
本研究的核心作者团队包括Junde Wu(牛津大学、新加坡国立大学)、Jiayuan Zhu(牛津大学)、Yuyuan Liu(牛津大学)、Min Xu(卡内基梅隆大学、MBZUAI)以及Yueming Jin*(新加坡国立大学,通讯作者)。该研究发表于2025年7月27日至8月1日举办的Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers),页码28489–28503。


学术背景

研究领域与动机
本研究属于自然语言处理(NLP)与人工智能交叉领域,聚焦于提升大语言模型(LLM, Large Language Model)在复杂推理任务中的表现。尽管现有LLM(如OpenAI的O1、DeepSeek-R1)在数学和编程等结构化任务中表现优异,但在社会科学、伦理决策等非结构化或知识密集型任务中仍存在局限性。传统方法依赖模型内部参数化知识,难以动态整合外部工具(如网络搜索、代码执行),导致推理过程僵化或事实性错误。

研究目标
团队提出Agentic Reasoning框架,通过动态整合三类外部智能体工具(网络搜索、代码执行、结构化记忆),增强LLM的深度研究能力。核心创新包括:
1. Mind-Map Agent:构建知识图谱以存储推理上下文,解决长链推理中的逻辑连贯性问题;
2. Web-Search Agent:设计高性能搜索机制,超越现有检索增强生成(RAG, Retrieval-Augmented Generation)方法;
3. Coding Agent:通过专用代码模型提升定量分析效率。


研究方法与流程

1. Agentic Reasoning流程设计

  • 动态工具调用:主推理模型(如DeepSeek-R1)在推理过程中嵌入特殊标记(如[WEB_SEARCH][CODE]),触发外部智能体。
  • 上下文整合:调用工具时,模型暂停推理,将当前上下文(通过Mind-Map提取)与查询发送至对应智能体,返回结果后继续推理。
  • 迭代优化:通过多轮检索-推理循环动态修正答案。

2. Mind-Map Agent实现

  • 知识图谱构建:使用图构造LLM(基于DeepSeek-V3)从原始推理链中提取实体及语义关系,类似GraphRAG方法。
  • 功能模块
    • 社区聚类:对知识图谱节点分组,生成摘要(如“患者治疗方案逻辑链”);
    • 查询响应:支持类似“Jason的外曾祖父是谁?”的复杂逻辑查询,通过图RAG检索相关信息。

3. Web-Search Agent优化

  • 四阶段流程
    1. 查询分解:将模糊查询(如“外部经济指标”)拆解为具体搜索词(如“美国2024年Q4通胀率”);
    2. 搜索引擎调用:使用Bing获取前20页结果;
    3. 重排序:基于Cohere Rerank 3.5模型筛选相关性>0.7的页面;
    4. RAG合成:对高相关页面生成自然语言摘要,整合至推理链。

4. Coding Agent设计

  • 任务委派:主模型发送上下文与代码需求至专用LLM(Claude-3.5-Sonnet),执行后返回自然语言结果。
  • 示例请求格式
    "Write code to compute optimal FiO2 given context [患者血氧数据] to answer query [最佳给氧方案]."

主要实验结果

1. 专家级问题解答

  • Humanity’s Last Exam基准测试:Agentic Reasoning在DeepSeek-R1上达到23.8%准确率,较基线提升14.4%,与顶级闭源模型OpenAI Deep Research仅差2.8%。
  • GPQA数据集(PhD级科学问答):综合准确率81.2%,超越所有开源模型及部分闭源模型(如GPT-4o、Claude 3.5)。

2. 深度研究任务

  • FreshWiki文章生成:ROUGE-L得分19.62,实体召回率18.77%,显著优于传统RAG和Storm等基线。
  • 人类专家评估(56个专业问题):在“兴趣度”(3.7/5)、“逻辑组织”(4.6/5)等维度超越Gemini Deep Research。

3. 消融实验验证

  • 工具组合效应:仅结合Web-Search与Mind-Map可使GPQA准确率提升9%,加入Coding Agent后达最优。
  • Mind-Map作用:在需长链推理的任务中(如狼人杀游戏),其结构化记忆使模型胜率从36%提升至72%。

结论与价值

科学意义
1. 方法论创新:首次系统验证工具化智能体协同增强LLM推理的可行性,提出模块化框架设计原则;
2. 性能突破:在开源模型中实现接近闭源SOTA的表现,缩小技术差距。

应用价值
- 医疗决策:案例显示模型能自主计算FiO2、检索PEEP值并生成治疗方案;
- 战略推理:在狼人杀等复杂博弈中展现人类级逻辑分析能力。


研究亮点

  1. Mind-Map Agent:通过知识图谱显式建模逻辑关系,解决LLM隐性记忆易丢失的痛点;
  2. Web-Search优化:结合查询分解与重排序,检索效率较传统RAG提升40%;
  3. 计算效率:平均响应时间6.8分钟/问题,显著快于GPT-Deep Research(17.8分钟)。

局限性
- 依赖外部知识源可信度;
- 多智能体调用带来计算开销。未来工作拟探索动态调用优先级优化。

(注:专业术语如“RAG”首次出现时标注英文,后续直接使用中文译名。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com