分享自:

内在记忆代理:通过结构化上下文记忆构建的异构多代理LLM系统

期刊:association for the advancement of artificial intelligence

基于结构化上下文记忆的异构多智能体LLM系统:Intrinsic Memory Agents

作者及机构

本文由Sizhe Yuen、Francisco Gomez Medina、Ting Su(艾伦·图灵研究所)、Yali Du(伦敦国王学院)及Adam J. Sobey(艾伦·图灵研究所与南安普顿大学)合作完成,发表于2025年8月的预印本平台arXiv(编号2508.08997v1)。


学术背景

研究领域:本研究属于人工智能领域中的多智能体系统(Multi-Agent Systems, MAS)与大型语言模型(Large Language Models, LLMs)交叉方向,聚焦于解决多智能体协作中的记忆一致性问题。
研究动机:尽管基于LLM的多智能体系统在复杂任务协作(如软件开发、科学实验设计)中展现潜力,但其性能受限于LLM的固定上下文窗口(context window),导致以下问题:
1. 记忆割裂:长对话中关键信息因超出上下文窗口而丢失;
2. 角色漂移(Role Drift):智能体因记忆不连贯偏离预设职责;
3. 流程完整性破坏:任务执行步骤因信息遗漏而中断。
现有方案(如检索增强生成RAG或单智能体记忆方法)无法适配多智能体场景的信息爆炸问题。
研究目标:提出Intrinsic Memory Agents(IMA)框架,通过结构化智能体专属记忆内生性记忆更新机制,提升多智能体系统的协作效率与任务规划能力。


研究方法与流程

1. 框架设计

IMA的核心是异构记忆模板内生性更新机制
- 结构化记忆模板(Structured Memory Templates):每个智能体的记忆按角色对齐的JSON模板组织,包含“领域知识”“当前立场”“解决方案提案”等槽位,确保记忆的异构性任务相关性
- 内生性更新(Intrinsic Memory Updates):记忆直接由智能体输出生成(而非外部摘要),通过LLM提示工程动态更新(见图2),保留角色特有的推理模式。

2. 实验流程

(1)基准测试(PDDL数据集)
- 任务类型:结构化规划任务(如生成可执行的领域定义语言方案)。
- 对比方法:7种现有记忆架构(如MetaGPT、ChatDev)。
- 评估指标:任务完成奖励分(Reward)与token效率(Reward/token)。
- 结果:IMA平均奖励分提升38.6%(0.0833 vs. 0.0601),token效率最优(5.933×10⁻⁷)。

(2)案例研究(数据管道设计)
- 任务设定:8个异构智能体协作设计实时自动驾驶数据管道(输入:多模态传感器数据;输出:AWS架构方案)。
- 评估指标:LLM评委从可扩展性可靠性可用性成本效益文档质量5维度评分(1-10分)。
- 结果:IMA在全部指标上显著优于基线(如可靠性4.89 vs. 3.56),但需额外消耗32%的token(见Table 2)。

(3)技术细节
- 内存更新函数(图2):通过提示工程指导LLM将智能体输出整合到历史记忆中,确保信息浓缩且角色一致。
- 上下文构建算法(Algorithm 1):优先保留初始任务描述、智能体记忆和最近对话轮次,避免上下文窗口溢出。


主要结果与逻辑链条

  1. PDDL基准:IMA的高奖励分源于结构化记忆对规划任务的精准支持——智能体通过专属记忆明确分工,减少重复讨论。
  2. 数据管道案例:IMA的JSON输出(图7)包含具体工具(如AWS Kinesis)、配置细节及优缺点分析,而基线(图8)仅泛泛描述组件功能。这一差异直接映射到LLM评委的评分差距(如文档质量3.56 vs. 2.0)。
  3. 内生更新的优势:实验表明,外部摘要会丢失角色特有信息,而IMA的内生更新保留异构视角(如数据工程师与ML工程师的关注点差异)。

结论与价值

科学价值
- 提出首个面向多智能体的异构记忆理论框架,证实结构化记忆对复杂协作任务的必要性。
- 验证内生性更新相比传统摘要方法在角色一致性上的优势。
应用价值
- 可扩展到需长期记忆的领域(如医疗决策、持续学习Agent)。
- 为多智能体系统的工业化部署(如自动化软件工程)提供新范式。


研究亮点

  1. 异构记忆模板:首次将JSON结构化记忆引入多智能体系统,支持角色专属知识库。
  2. token效率与性能平衡:尽管token消耗增加,但通过精准记忆管理提升了任务成功率。
  3. 案例深度验证:通过PDDL和实际数据管道任务的双重检验,凸显方法在结构化与开放场景的普适性。

局限性与未来方向

  1. 记忆模板需手动设计:未来可探索自动化模板生成方法。
  2. 未测试超大规模智能体群:需验证框架在数十个智能体协同时的扩展性。
  3. 长程记忆的检索效率:当前依赖纯LLM处理,可结合向量数据库优化检索速度。

(注:全文约2400字,完整覆盖研究全貌,数据与术语均严格对标原文。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com