分享自:

智能体上下文工程:为自改进语言模型演化上下文

期刊:International Conference on Learning Representations (ICLR 2026)

大型语言模型自主进化的新范式:ACE框架——通过“代理化语境工程”实现高效、可扩展的上下文自优化

作者与发表信息 本研究由来自斯坦福大学、SambaNova Systems, Inc. 和加州大学伯克利分校的研究团队共同完成,主要作者包括Qizheng Zhang、Changran Hu、Shubhangi Upasani、Boyuan Ma等。该研究论文已被国际表征学习大会(International Conference on Learning Representations, ICLR 2026)接收。

学术背景与研究动机 本研究属于人工智能领域,特别是大型语言模型(Large Language Model, LLM)应用与优化方向。当前,基于LLM的智能体(agent)和复杂AI系统日益依赖“上下文适应”(context adaptation)来提升性能,即通过修改模型的输入(如系统提示、任务示例、历史记忆等),而非更新模型权重,来适应新任务或领域。这种方法具有可解释性高、知识更新快、可跨模型共享等优势。然而,现有的上下文适应方法存在两大核心局限:一是“简洁性偏差”(brevity bias),即优化过程倾向于生成简短、通用的指令,牺牲了领域特有的细节和启发式知识;二是“语境坍塌”(context collapse),即在迭代重写过程中,积累的详细知识被压缩甚至丢失,导致性能急剧下降。

随着长上下文LLM的发展,研究者认为,上下文不应是简化的摘要,而应是全面、不断演进的“操作手册”(playbook),其中应保留丰富的领域知识和策略。为此,本研究旨在提出一种新的框架,以克服现有方法的局限性,构建能够持续积累、精炼和组织策略的上下文,从而支撑可扩展、高效且能自我改进的LLM系统。本研究的目标是开发一个名为“代理化语境工程”(Agentic Context Engineering, ACE)的框架,用于在离线(如系统提示优化)和在线(如测试时记忆适应)两种场景下,进行高效且可扩展的上下文适应。

详细工作流程 ACE框架建立在动态备忘单(Dynamic Cheatsheet)引入的“适应性记忆”概念之上,但进行了关键性扩展与结构化。其核心思想是将上下文视为由结构化、条目化的“要点”(bullets)组成的集合,而非单一的整体提示。每个要点包含元数据(唯一标识符、有用/有害计数)和内容(一个可重用的策略、领域概念或常见错误模式)。ACE的工作流程通过三个专门化的代理角色(Generator, Reflector, Curator)的模块化分工来实现,模拟了人类“实验-反思-整合”的学习过程。

  1. 生成器(Generator):负责针对新的查询生成推理轨迹(包括代码、工具调用等),并在生成过程中标记出哪些已有的上下文要点是有用的或具有误导性的。这相当于在具体任务中应用现有知识并产生新的行为记录。

  2. 反思器(Reflector):这是一个关键创新组件,负责分析生成器产生的轨迹以及环境反馈(如执行成功/失败、单元测试结果、与标准答案的差距等)。其任务是从成功和失败中提取具体的经验教训和洞见。反思器会诊断错误根源(例如,使用了错误的数据源、分页逻辑不当),并提出应被记住的关键策略或应避免的陷阱。这一角色将评估和洞见提取与后续的整合工作分离,确保了上下文更新的质量。

  3. 策展器(Curator):接收反思器提炼出的洞见,并将其合成为紧凑的“增量上下文”(delta context)条目。策展器不会重写整个上下文,而是通过轻量级的、非LLM的逻辑,确定性地将这些增量条目合并到现有的上下文结构中。这实现了增量式德尔塔更新(Incremental Delta Updates),避免了昂贵的整体重写,保留了历史知识,同时稳步添加新见解。

为了管理上下文的增长并保持其相关性,ACE引入了 “增长-精炼”(Grow-and-Refine) 机制。新的要点被追加,现有要点的计数器被更新。系统会定期或按需进行去重,通过语义嵌入比较要点内容,修剪冗余。这种设计平衡了上下文的持续扩展与冗余控制。

在评估阶段,研究团队在两个最能受益于全面、演进式上下文的应用类别上测试了ACE: * 智能体基准测试:使用AppWorld基准测试,该测试要求模型进行多轮推理、工具使用和环境交互。 * 领域特定基准测试:聚焦金融分析,使用了Finer(金融实体细粒度识别)和Formula(从XBRL文件中提取数值并进行计算推理)两个数据集。

评估设置分为两种: * 离线适应:在训练集上优化上下文(如系统提示),然后在测试集上评估。 * 在线适应:在测试集上顺序评估,模型根据每个样本的预测结果和反馈即时更新其上下文(记忆)。

研究对比了多个基线方法,包括:基础LLM、上下文学习(ICL)、MIPROv2、GEPA(一种基于反思提示进化的优化器)以及动态备忘单(DC)。为确保公平,ACE框架中的生成器、反思器和策展器均使用同一模型(DeepSeek-V3.1的非思考模式),以隔离上下文构建本身带来的收益。

主要研究结果 ACE框架在多个基准测试中 consistently 超越了现有强基线方法,展现出显著优势:

  1. 在智能体任务上的卓越性能:在AppWorld基准测试上,采用ACE进行离线适应的React智能体,其平均任务目标完成率(TGC)和场景目标完成率(SGC)相比React基线平均提升了17.0%。即使在没有真实标签(仅依赖执行反馈)的在线适应设置下,ACE仍能实现14.8%的平均提升,显著优于动态备忘单(DC)等在线适应方法。特别值得注意的是,在AppWorld官方排行榜(截至2025年9月)上,使用较小开源模型DeepSeek-V3.1的React+ACE系统,其平均性能(59.4%)与排名第一、基于GPT-4.1的商业级智能体IBM-CUGA(60.3%)相当,并且在更难的“测试-挑战”子集上超越了后者。这证明了通过构建全面的、自我演进的上下文,较小的模型也能达到甚至超越大型专有模型智能体的性能。

  2. 在领域特定任务上的大幅提升:在金融分析任务上,ACE同样表现出色。在离线适应设置下,ACE在Finer和Formula数据集上的平均准确率相比基线方法提升了12.8%。这凸显了结构化、演进式上下文在需要精确领域知识(如金融概念、XBRL规则)的任务中的有效性。研究也指出,当缺乏可靠的反馈信号(如真实标签或明确的执行结果)时,ACE和其他自适应方法的性能可能会下降,这表明上下文适应的有效性高度依赖于反馈质量。

  3. 消融实验验证设计有效性:研究通过消融实验证实了ACE核心组件的贡献。实验表明,移除反思器或多轮次(multi-epoch)精炼都会导致性能显著下降。例如,在AppWorld上,完整的ACE相比没有反思器或多轮次精炼的版本,性能有显著提升。这证明了反思器在提取高质量洞见以及多轮次迭代在强化上下文方面的重要性。

  4. 显著降低的适应成本与延迟:得益于增量式更新和非LLM的上下文合并机制,ACE在计算效率上具有巨大优势。在AppWorld的离线适应中,与GEPA相比,ACE将适应延迟降低了82.3%,所需“尝试次数”(rollouts)减少了75.1%。在Finer的在线适应中,与动态备忘单(DC)相比,ACE将适应延迟降低了91.5%,令牌生成与处理的美元成本降低了83.6%。这证明了ACE能够以更低的开销实现更高效的自我改进。

结论与研究价值 本研究提出的ACE(代理化语境工程)框架,为解决现有上下文适应方法中的“简洁性偏差”和“语境坍塌”问题提供了一个系统性的解决方案。通过将上下文结构化为可演进的要点集合,并引入生成器、反思器、策展器的模块化工作流与增量更新机制,ACE能够构建并维护一个全面、详细且可扩展的“操作手册”。实验结果表明,ACE不仅在智能体和领域特定任务上实现了显著的性能提升,还能在无监督(仅凭执行反馈)的情况下有效工作,并且大幅降低了适应过程的计算成本和延迟。

本研究的科学价值在于,它推动了对LLM上下文适应范式的理解,从追求简洁性转向拥抱全面性和演进性,并提供了实现这一目标的具体架构与方法。其应用价值广泛,为构建能够持续学习、适应复杂环境、且部署成本更低的下一代LLM智能体和复合AI系统提供了可行的技术路径。此外,由于上下文是人类可解释的,ACE还为选择性“遗忘”(unlearning)和负责任的学习开辟了潜在方向。

研究亮点 1. 重要发现:首次系统性地定义并实证了上下文适应中的“简洁性偏差”和“语境坍塌”问题,并提出了有效的解决方案。 2. 方法新颖性:提出了首个模块化的“代理化语境工程”框架,通过生成、反思、策展的三角色分工和增量德尔塔更新机制,实现了上下文的高质量、低成本持续演进。 3. 性能突破:在多个具有挑战性的基准测试上,ACE显著超越了现有最优方法,并证明了通过上下文工程,较小的开源模型可以达到与大型专有模型智能体相媲美甚至更优的性能。 4. 高效性:在取得性能提升的同时,ACE大幅降低了适应过程的计算开销和延迟,证明了可扩展的自改进可以同时实现高精度与低开销。 5. 普适性与灵活性:框架同时支持离线和在线适应场景,并能有效利用自然执行反馈进行无监督学习,增强了其实用性。

其他有价值的内容 论文还讨论了ACE框架的潜在影响与未来方向。例如,虽然ACE会产生更长的上下文,但现代推理基础设施(如KV缓存重用、压缩等技术)可以摊销长上下文带来的成本,使得此类方法在实际部署中越来越可行。此外,ACE为在线学习和持续学习提供了一种比传统微调更灵活、高效的替代方案,并且由于其上下文的可解释性,有助于实现符合伦理和法律要求的模型行为管理。研究也指出了ACE的局限性,即其效果依赖于反思器的能力,在反馈信号不可靠或任务本身不需要详细上下文的场景下,其优势可能不明显。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com