本文档是对一篇题为Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models(自主智能体上下文工程:为自我改进的语言模型进化上下文)的原创性研究论文的介绍,该论文已接受为ICLR 2026会议论文。以下是对该研究的学术报告。
一、 主要作者与发表情况
本研究由来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究团队合作完成。主要作者包括Qizheng Zhang, Changran Hu(并列一作),以及Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Ranton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou和Kunle Olukotun。研究于ICLR 2026会议上发表。
二、 学术背景与研究目标
本研究属于大型语言模型应用与优化领域,特别是围绕“上下文适应”或“上下文工程”这一新兴范式展开。随着以LLM为核心的智能体(Agent)和复合AI系统的普及,研究人员发现,与其代价高昂地更新模型权重,通过优化输入给模型的“上下文”来提升性能更为灵活高效。这里的“上下文”是一个广义概念,包括指导下游任务的系统提示、携带过往事实和经验的记忆、以及用于减少幻觉和补充知识的事实证据。
然而,现有的上下文适应方法存在两大关键缺陷。第一是简洁性偏见:许多提示优化方法倾向于生成简短、通用的指令,而牺牲了实践中至关重要的领域特定启发式知识、工具使用指南和常见错误模式。第二是上下文崩塌:当LLM被要求迭代重写不断增长的上下文时,模型倾向于将其压缩成短小且信息量少的摘要,导致先前积累的详细知识被意外擦除,性能急剧下降。
鉴于上述问题,本研究旨在探索一种新的方法。研究者认为,上下文不应被视为简短的摘要,而应作为全面、结构化且不断演化的“战术手册”。长上下文LLM的进步使得这种“饱和式”信息提供成为可能,LLM能够自主筛选相关性。因此,本研究的目标是开发一个能够构建、积累、细化和组织此类“战术手册”的框架,以实现模型在无需权重更新的情况下进行自我改进。
三、 研究方法与详细流程
本研究提出的核心框架名为 ACE (Agentic Context Engineering) 。ACE将上下文视为由独立、结构化的“条目”组成的集合,每个条目(Bullet)代表一个可重用的策略、领域概念或常见故障模式。其创新性工作流程基于一个模块化的、分工明确的多智能体架构,包括三个核心角色:生成器、反思器和策展人。整个研究通过一系列基准测试来评估ACE的性能,主要流程如下:
框架设计与核心机制
- 模块化智能体工作流:
- 生成器:负责接收查询和当前上下文,生成推理轨迹,并在过程中标记哪些上下文条目是有用或具有误导性的。
- 反思器:批判性地分析生成器的推理轨迹,提取具体经验教训(如成功的策略、错误的根源),并可进行多轮迭代精炼,确保见解的质量。反思器与策展过程分离,这是提升上下文质量的关键设计。
- 策展人:综合反思器提炼出的经验教训,将其转化为紧凑的“增量条目”,并通过轻量级的、非LLM的逻辑(如确定性合并、语义去重)将其整合到现有上下文中。策展人决定新条目是追加还是更新现有条目。
- 增量式增量更新:ACE的核心设计原则是避免对整个上下文进行代价高昂的、端到端的重写。取而代之的是生成“增量上下文”,即仅包含新见解或对现有条目小修改的局部更新集合。这确保了过往知识的保存,同时显著降低了计算成本和延迟。
- 增长-精炼机制:为控制上下文规模并保持其相关性,ACE采用“增长-精炼”机制。新条目被追加,而现有条目则在原地更新(如增加被引用次数的计数器)。一个去重步骤会通过比较条目的语义嵌入向量来修剪冗余内容。精炼可以主动进行(每次增量更新后)或延迟进行(仅在上下文窗口超出限制时),以平衡延迟和准确性需求。
实验设计与评估流程 研究在两个最能从全面、演化上下文中受益的LLM应用类别上评估ACE:LLM智能体和领域特定推理。
- 基准数据集:
- 智能体基准:使用AppWorld,这是一个涉及API理解、代码生成和环境交互的自主智能体任务套件,包含“普通”和“挑战”两个难度级别,通过任务目标完成率和场景目标完成率来评估。
- 领域特定基准:
- 金融分析:使用FinER(金融实体识别)和Formula(金融数值推理与计算)作为主要案例。
- 医学推理:使用DDXPlus。
- 文本到SQL:使用Bird-SQL。
- 实验设置:
- 模型:主要使用开源模型DeepSeek-V3.1作为生成器、反思器和策展人的基础LLM,以隔离上下文构造本身带来的收益。研究还评估了ACE在其他LLM上的泛化能力。
- 对比基线:与多个强基线进行比较,包括:
- 无上下文工程的Base LLM。
- 上下文学习**。
- 提示优化器MiProV2和GEPA。
- 在线记忆自适应方法Dynamic Cheatsheet。
- 评估模式:
- 离线上下文适应:在训练集上优化系统提示,然后在测试集上用pass@1准确率进行评估。
- 在线上下文适应:在测试集上顺序评估,模型先用当前上下文预测,然后基于该样本的反馈更新其上下文,模拟测试时的学习。
- 数据处理:所有数据集遵循原始的训练/验证/测试划分。研究还考虑了ACE在有无“地面实况标签”监督下的表现。
数据分析工作流
- 性能分析:比较ACE与各基线在各项基准任务上的平均准确率或目标完成率提升。
- 消融研究:通过移除或修改ACE的关键组件(如反思器、多轮迭代精炼、增量更新、离线预热),分析每个设计选择对最终性能的贡献。
- 成本与延迟分析:量化ACE相对于基线方法(如GEPA和Dynamic Cheatsheet)在上下文适应阶段的延迟、所需任务执行次数以及Token使用成本的减少。
- 鲁棒性与敏感性分析:测试ACE在面对较弱反思器、含有噪声或有害的反思反馈等情况下的稳健性,并分析关键超参数(如反思迭代轮数、去重阈值)变化对性能的影响。
- 泛化性验证:将ACE框架应用于不同的基础LLM,验证其方法在不同模型家族上的普遍有效性。
四、 主要研究结果
在智能体基准上的卓越性能: 在AppWorld上,ACE展现出显著且一致的性能提升。
- 离线适应:React + ACE平均性能(TGC和SGC的综合)相比基础React智能体提升了17.0%。即使在没有地面实况标签监督的情况下,仅依靠代码执行成功/失败等自然反馈,仍能取得14.8%的提升。这证明了ACE构建有效“战术手册”的能力。
- 在线适应:React + ACE同样优于之前最先进的自适应方法Dynamic Cheatsheet,平均提升7.6%。
- 重要比较:在AppWorld官方排行榜上,使用DeepSeek-V3.1的ACE智能体,其离线适应版本平均成绩(59.4%)与当时排名第一、基于GPT-4.1的生产级智能体IBM CUGA(60.3%)相当。尤其值得注意的是,在难度更高的“挑战”测试集上,ACE的在线适应版本甚至在多个指标上超越了IBM CUGA。这凸显了ACE框架在构建全面、自我进化上下文方面的强大能力,能以更小的模型达到顶级性能。
在领域特定基准上的大幅增益:
- 在金融分析任务上,ACE离线适应(有标签监督)在FinER和Formula上分别带来了7.6%和18.0%的绝对准确率提升,平均增益高达12.8%,显著超过GEPA和MiProV2等基线。
- 结果同时表明,当缺乏可靠的反馈信号时,包括ACE在内的自适应方法性能可能会下降,这揭示了上下文适应高度依赖反馈质量的特性。
- 在医学推理和文本到SQL任务上的拓展实验也显示ACE带来了稳定的增益,证明了其“战术手册”式上下文适应可以跨领域迁移。
设计有效性与消融研究结果: 消融研究证实了ACE设计的关键性。
- 反思器与多轮精炼:移除反思器或多轮精炼会导致性能显著下降,分别损失了3-5个百分点的平均性能。
- 增量更新:关闭增量更新(即允许上下文重写)会导致“上下文崩塌”,性能急剧下滑,甚至低于未使用ACE的基线。这直接证明了增量更新机制对于防止知识丢失的核心作用。
- 离线预热:在在线适应前先进行离线预热,能带来进一步的性能提升,表明良好的初始化上下文是有益的。
高成本效率与低延迟:
- ACE在效率方面表现出巨大优势。在AppWorld离线适应中,相比GEPA,ACE将适应延迟降低了82.3%,所需的任务执行次数减少了75.1%。
- 在FinER的在线适应中,相比Dynamic Cheatsheet,ACE将适应延迟降低了91.5%,Token成本降低了83.6%。
- 尽管ACE产生的上下文更长,但通过利用现代推理服务的KV缓存复用技术,大部分输入Token可以从缓存中读取。研究在GPT-5.1上的实验显示,评估阶段91.8%的输入Token来自缓存,使计费输入Token成本降低了82.6%。这表明长上下文不必然导致线性增长的推理成本。
泛化性与鲁棒性:
- 跨LLM泛化:ACE在GPT-OSS-120B、GPT-5.1和Llama-3.3-70B-Instruct等不同规模和能力的模型上均能带来稳定提升,验证了其作为模型无关框架的有效性。
- 对反思质量的鲁棒性:ACE对反思器质量并不高度敏感。即使使用弱得多的反思器,它仍然能带来可观的性能提升。在面对中等程度的噪声或有害反射时,其性能也能缓慢、可控地下降,只有在每次迭代都注入恶意更新的极端情况下才会低于基线模型。
五、 研究结论与价值
本研究的结论是,ACE框架成功地提出并验证了一种高效、可扩展的上下文适应新范式。它将上下文从静态的、倾向于压缩的提示,转变为动态的、积累式的、结构化的战术手册。通过模块化的“生成-反思-策展”工作流、增量更新和增长-精炼机制,ACE有效克服了简洁性偏见和上下文崩塌问题,使得LLM应用能够在测试时通过利用自然反馈进行自我改进。
其科学价值在于: 1. 理论贡献:明确了上下文作为“演化战术手册”的新角色,为LLM的在线学习和持续适应提供了一个创新的、可解释的理论框架。 2. 方法论贡献:提出并验证了一套具体的、模块化的工程化方法,展示了如何将复杂的上下文优化任务分解并高效执行。 3. 实践价值:证明了该方法能在大幅提升智能体和专业领域任务性能的同时,显著降低适应成本和延迟,使得低开销、高性能的自我改进AI系统成为可能。
六、 研究亮点
- 问题定义清晰:精准识别并命名了现有上下文适应方法的两大核心痛点——“简洁性偏见”和“上下文崩塌”。
- 方法创新性强:提出的ACE框架集成了模块化智能体分工、增量更新、增长-精炼等多个创新机制,形成了一个完整且高效的系统解决方案。
- 性能提升显著:在多个具有挑战性的基准上取得了10%以上的平均性能提升,同时还能以开源模型匹敌甚至超越基于顶级商业模型的智能体。
- 效率优势突出:不仅在准确性上领先,更重要的是在适应延迟和成本方面实现了数量级的降低,解决了自适应方法落地的一大障碍。
- 验证全面充分:研究包含了广泛的任务评估、深入的消融分析、成本效率分析、泛化性测试和鲁棒性检验,为结论提供了坚实支撑。
七、 其他有价值的探讨
- 对在线与持续学习的启示:论文指出,ACE为处理分布偏移和有限训练数据等挑战,提供了一种比传统微调更灵活、更高效的替代方案。由于其上下文是人类可解释的,它也启发了选择性“遗忘”的可能性,这对于满足隐私、法律合规或修正错误信息的需求具有重要意义。
- 局限性与挑战:研究者坦诚,ACE的性能依赖于一个“足够强”的反思器。在完全无法提取有用见解的领域任务中,其收益将受限。此外,并非所有应用都需要丰富详细的上下文,对于策略固定的任务,简洁指令可能就足够了。