分享自:

T1:面向工具的多轮对话代理规划数据集

期刊:39th conference on neural information processing systems (NeurIPS 2025)

关于T1数据集的学术研究报告:面向多轮对话中工具调用与规划评估的新基准

一、 研究作者、机构与发表信息

本研究报告的论文标题为《t1: a tool-oriented conversational dataset for multi-turn agentic planning》。该研究由来自Capital One(第一资本)的研究团队完成。主要作者包括Amartya Chakraborty、Paresh Dashore、Nadia Bathaee、Anmol Jain、Anirban Das、Shi-Xiong Zhang、Sambit Sahu、Milind Naphade以及Genta Indra Winata。其中,标注了星号(*)的作者为共同第一作者。该论文已提交至第39届神经信息处理系统大会(NeurIPS 2025)的数据集与基准测试(Datasets and Benchmarks)赛道。

二、 研究背景与目标

科学领域:本研究属于人工智能领域,具体聚焦于大语言模型(Large Language Models, LLMs)驱动的智能体(Agents)研究,特别是任务导向型对话系统中的工具使用(Tool Use)与规划(Planning)能力评估。

研究动机与背景知识:尽管大语言模型在作为智能体解决复杂任务方面展现出巨大潜力,但在涉及API或工具调用之间存在依赖关系的场景中,尤其是在多轮对话(multi-turn conversations)中进行有效规划,仍然是一个重大挑战。现有的评估数据集(如APIBank、TravelPlanner、ToolBench等)大多侧重于单轮交互或单一工具调用,缺乏对多轮、多领域对话中跨工具依赖关系长程上下文推理以及动态重规划(如决定是重新计算还是复用缓存结果)能力的系统性评估。现实世界中的任务(如旅行规划)往往需要智能体协调使用多个工具(如航班搜索、酒店查询、景点推荐),并根据用户反馈和中间结果调整计划。为了填补这一空白,研究团队旨在构建一个能够严格评估智能体在这些复杂、现实场景下规划与工具使用能力的基准。

研究目标:本研究的主要目标是:1) 引入一个名为T1的新型数据集和评估框架,专门用于评估大语言模型智能体在多轮对话中处理工具使用和跨工具依赖关系的能力;2) 提出并评估一个基于LLM的智能体架构T1-Agent,以展示如何在该数据集上进行评估,并探究通过监督微调(Supervised Fine-Tuning, SFT)等方法提升模型性能的潜力;3) 通过T1数据集,对一系列开源和闭源大语言模型的工具使用与规划能力进行基准测试,分析其优劣势。

三、 详细研究流程与方法

本研究主要包括两大核心部分的构建与评估:T1数据集的创建和T1-Agent评估框架的实施。

(一)T1数据集的构建流程

T1数据集旨在模拟用户与旅行助手之间的多轮、目标导向对话,要求智能体通过调用一系列预定义工具来完成任务。其构建是一个系统化、多步骤的过程:

  1. 领域与本体(Ontology)定义

    • 研究对象:定义了四个核心旅行领域:航班(Flights)、酒店(Hotels)、餐厅(Restaurants)、景点(Attractions)。此外,还定义了一个城市(Cities)本体。
    • 样本规模与处理:为每个领域定义了详细的属性(共106个属性)。例如,航班属性包括航空公司、舱位等级、经停次数等;酒店属性包括星级、评分、是否含健身房等。这些属性及其可能的值构成了数据生成的蓝图。
  2. 知识库(Knowledge Bases)构建

    • 研究对象的来源与生成:为了生成逼真的对话数据,研究团队构建了四个领域的合成知识库。
      • 航班:基于128个美国机场列表,生成了480,410条合成航班数据,包括随机分配的航空公司、出发/到达机场以及基于地理距离计算的飞行时间。
      • 酒店与餐厅:为321个美国城市生成了47,589家酒店和17,975家餐厅的合成数据。数据包括名称、位置(城市、街区、合成坐标)、评分、价格、特定属性(如酒店设施、餐厅菜系和饮食限制)。
      • 景点:从85个城市中,利用Llama-3.3 70B Instruct模型收集了728个景点数据,并经过人工质量保证(QA)审核,确保数据正确性。数据包括景点类型(如旅游、历史、风景等)和位置信息。
    • 方法特殊性:所有实体(酒店名、餐厅名等)均为合成,以避免大语言模型依赖其内部知识而非工具调用来回答问题,确保评估的纯净性。
  3. 对话模板生成与标注

    • 研究对象的创建:研究定义了九种对话类别:四个单领域(如仅航班)和五个多领域组合(如航班-酒店、酒店-餐厅-景点等)。对于每个类别,使用Llama-3.3 70B Instruct模型生成了60个对话模板。模板是包含占位符(如 <city_x_hotel_name_x>)的对话轮次序列。
    • 处理与实验人工标注员(具有计算机科学硕士以上学历并精通Python)负责为每个对话模板编写“真实代码”。这段代码使用预定义的14个工具(如 search_flights, search_hotels, filter_flights, save_to_cache等)来模拟智能体应执行的正确操作序列,以回应用户在对话中的请求。每个模板的标注代码都经过质量保证(QA)评审员的检查和反馈,以确保逻辑正确性和代码可执行性。这是一个关键步骤,确保了数据集的高质量和可执行性
  4. 模板词汇化(Lexicalization)与数据划分

    • 数据处理:将对话模板和对应的真实代码中的占位符,用知识库中的真实实体(城市、酒店名、日期等)进行填充,生成具体的对话实例。
    • 样本划分:为确保无数据泄露,数据集被严格划分为训练集、验证集和测试集。划分在模板和城市两个层面进行:每个类别的60个模板分为15个训练、5个验证、40个测试;54个城市分为13个训练、4个验证、37个测试。每个模板使用其分配的城市池生成25个独特的对话实例。最终,整个T1数据集包含13,500个完整对话
    • 最终验证:填充后的代码会在沙盒环境中执行,以验证其无语法错误并能成功运行,确保数据集的可靠性。

(二)T1-Agent评估框架与实验流程

为了评估模型在T1数据集上的表现,研究团队构建了T1-Agent,这是一个基于代码生成的LLM智能体框架。

  1. 评估任务定义:T1-Agent在每一轮用户对话中需要完成三个核心子任务:

    • 信息寻求(Information Seeking):识别调用工具所需的必填参数,并向用户询问缺失信息。
    • 参数提取(Parameter Extraction):从用户对话历史中提取调用工具所需的参数值。
    • 工具调用(Tool Calling):生成可执行的Python代码来调用正确的工具序列。
    • 数据缓存(Data Caching):引入一个创新机制,智能体可以将工具调用结果存入缓存,并在后续对话中通过 get_results_from_cache 工具复用,或基于缓存结果进行过滤(如 filter_flights),从而避免冗余计算,测试模型的动态重规划和状态管理能力。
  2. 实验设置

    • 数据集划分:使用“大”测试集(每个领域1000个对话)和“小”测试集(每个领域40个对话)进行评估。
    • 评估模型:包括开源模型(如Llama 3.1 8B Instruct, Llama 3.3 70B Instruct, S1.1 32B, Phi-4-Reasoning-Plus)和闭源/专有模型(如GPT-4.1/5系列、Gemini 2.5 Pro、OpenAI o3/o4-mini)。
    • 微调实验:对Llama 3.1 8B Instruct模型在T1训练集上进行了监督微调(SFT),使用LoRA(Low-Rank Adaptation)技术,以探究任务特定适应对性能的提升。
    • 推理过程:在每次用户轮次,模型接收对话历史和当前查询,并生成代码。提示词(Prompt)中包含了缓存结果的摘要而非完整缓存,以减少令牌消耗并引导模型进行规划。
  3. 评估指标:采用多维度指标进行综合评估:

    • 工具调用(Tool Call):准确率、精确率、召回率、F1分数。
    • 参数匹配(Parameter Matching):准确率、精确率、召回率、F1分数。
    • 代码执行成功率(Code Execution Rate):生成代码无错误执行的比例。
    • 信息寻求(Information Seeking):使用SacreBLEU和BERTScore评估询问信息的文本相似度。
    • 缓存摘要(Cache Summary):使用精确匹配(Exact Match, EM)评估最终执行结果是否与真实代码结果功能等价。

四、 主要研究结果与分析

实验结果表明,T1数据集能够有效区分不同模型在复杂工具调用和规划任务上的能力,并揭示了多个重要发现。

  1. 监督微调(SFT)显著提升小模型性能:在大型测试集上,经过T1数据微调的 Llama 3.1 8B Instruct SFT 模型在大多数评估指标上超越了其基础版本,甚至显著优于参数量大得多的 Llama 3.3 70B Instruct 模型(零样本/少样本)。例如,在工具调用F1分数和参数匹配F1分数上,8B SFT模型(87.17, 75.76)全面领先于70B模型(79.72, 67.74)。这突出表明,针对特定复杂任务进行监督微调,可以极大地释放较小模型的潜力,使其达到甚至超越更大通用模型的性能。这一发现对于在实际应用中部署高效、专用的智能体具有重要意义。

  2. 闭源模型整体领先,但微调开源模型差距缩小:在小型测试集上,顶级闭源模型(如Gemini 2.5 Pro, GPT-5, OpenAI o3)在工具调用、参数匹配、代码执行率和缓存使用等核心规划指标上普遍表现最佳。例如,Gemini 2.5 Pro在工具调用F1上达到94.28。然而,经过微调的Llama 3.1 8B SFT模型在这些指标上紧随其后,并且在信息寻求任务上的SacreBLEU和BERTScore得分甚至超过了所有闭源模型。这说明闭源模型在复杂推理和规划方面仍有优势,但开源模型通过高质量的领域特定数据微调,可以大幅追赶。

  3. 上下文学习(Few-shot Learning)的必要性与局限性:对Llama 3.3 70B模型在航班领域的实验显示,零样本(0-shot) 设置下性能很差,5样本(5-shot)13样本(13-shot) 设置能带来显著提升,但超过5样本后收益趋于平缓。这表明,即使对于大型模型,在没有示例或示例不足的情况下,处理T1这样的复杂多领域规划任务也非常困难,凸显了构建此类专门数据集用于评估和提升模型上下文学习能力的重要性。

  4. 缓存机制的有效性:分析显示,成功的缓存利用(即当计划需要读取缓存时,缓存中确实有所需结果)与整体任务成功高度相关。微调后的8B SFT模型在缓存读取成功率上达到88.85%,与顶级闭源模型(如Gemini 2.5 Pro的87.58%)相当,并远高于未微调的大模型(如Llama 3.3 70B的61.51%)。这验证了集成缓存机制对于实现高效、连贯的多轮规划是有效的,并且模型可以通过学习来掌握这一策略

  5. 多领域任务更具挑战性:论文中的详细结果(如Llama 3.1 8B基础模型的表5)显示,模型在单领域任务上的表现通常优于多领域组合任务。例如,在“航班-酒店-景点”这种三领域任务上,工具调用F1和参数匹配F1分数明显低于单领域任务。这证实了T1数据集在评估跨领域协调与依赖关系处理这一核心挑战方面的价值。

五、 研究结论与价值

本研究成功构建并发布了T1数据集与评估框架,这是一个专门用于评估大语言模型智能体在多轮、多领域对话中进行工具导向规划(tool-oriented planning) 能力的重要资源。

  • 科学价值:T1填补了现有基准的空白,它强调跨工具依赖、动态重规划和基于缓存的状态管理,为社区提供了一个更贴近现实应用场景的、严谨的评估沙盒。它推动了智能体研究从单步工具调用向多步、有状态、可复用规划的方向发展。
  • 应用价值:该研究为开发更强大的对话式AI助手(如旅行规划、客户服务、复杂任务自动化)提供了关键的训练和评估数据。结果表明,通过监督微调,较小的开源模型可以显著提升在特定复杂任务上的性能,这为在资源受限环境下部署高效能专用智能体提供了可行路径。
  • 重要观点:研究强调了规划(Planning) 作为智能体核心能力的重要性,它不仅仅是调用工具,更涉及理解依赖关系、管理对话状态、做出复用或重新计算的决策。同时,研究也表明,模型规模并非决定规划能力的唯一因素,高质量的领域适应(微调)可以带来质的飞跃。

六、 研究亮点

  1. 数据集的复杂性与创新性:T1是首个大规模(13.5K对话)、专注于多轮对话中工具间依赖关系集成缓存机制的评估数据集。其涵盖9个领域组合,并包含人工标注的可执行代码作为真实标签,保证了评估的准确性和挑战性。
  2. 评估维度的综合性:不仅评估最终工具调用的正确性,还分解评估信息寻求、参数提取、代码执行、缓存使用等多个子任务,提供了对智能体规划能力的细粒度诊断。
  3. 微调有效性的有力实证:研究通过对比实验,清晰展示了监督微调(SFT) 如何使一个8B参数的小模型在复杂规划任务上超越未微调的70B大模型,这一发现对社区选择模型优化策略具有重要指导意义。
  4. 开源与闭源模型的系统性对比:论文提供了涵盖从1.5B到70B参数的开源模型,以及多个主流闭源模型的详尽基准测试结果,为研究者提供了全面的性能图谱。
  5. 可复现性与资源开放:作者公开了数据集(Hugging Face)和代码(GitHub),严格遵守了学术规范,有利于推动后续研究。

七、 其他有价值内容

论文还包含了与现有相关工作(如APIBank, TravelPlanner, ToolBench等)的详细对比(见表1),阐明了T1的独特定位。此外,附录部分提供了大量补充结果,包括不同模型在各个具体领域上的详细性能表格、缓存使用统计、以及不同上下文学习示例数量下的性能变化曲线,为深入分析提供了丰富数据。论文也坦诚地指出了局限性,例如评估主要集中于开源模型,未来可扩展至更多专有模型。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com