基于结构化上下文记忆的异构多智能体LLM系统:Intrinsic Memory Agents
本文由Sizhe Yuen、Francisco Gomez Medina、Ting Su(艾伦·图灵研究所)、Yali Du(伦敦国王学院)及Adam J. Sobey(艾伦·图灵研究所与南安普顿大学)合作完成,发表于2025年8月的预印本平台arXiv(编号2508.08997v1)。
研究领域:本研究属于人工智能领域中的多智能体系统(Multi-Agent Systems, MAS)与大型语言模型(Large Language Models, LLMs)交叉方向,聚焦于解决多智能体协作中的记忆一致性问题。
研究动机:尽管基于LLM的多智能体系统在复杂任务协作(如软件开发、科学实验设计)中展现潜力,但其性能受限于LLM的固定上下文窗口(context window),导致以下问题:
1. 记忆割裂:长对话中关键信息因超出上下文窗口而丢失;
2. 角色漂移(Role Drift):智能体因记忆不连贯偏离预设职责;
3. 流程完整性破坏:任务执行步骤因信息遗漏而中断。
现有方案(如检索增强生成RAG或单智能体记忆方法)无法适配多智能体场景的信息爆炸问题。
研究目标:提出Intrinsic Memory Agents(IMA)框架,通过结构化智能体专属记忆和内生性记忆更新机制,提升多智能体系统的协作效率与任务规划能力。
IMA的核心是异构记忆模板和内生性更新机制:
- 结构化记忆模板(Structured Memory Templates):每个智能体的记忆按角色对齐的JSON模板组织,包含“领域知识”“当前立场”“解决方案提案”等槽位,确保记忆的异构性与任务相关性。
- 内生性更新(Intrinsic Memory Updates):记忆直接由智能体输出生成(而非外部摘要),通过LLM提示工程动态更新(见图2),保留角色特有的推理模式。
(1)基准测试(PDDL数据集)
- 任务类型:结构化规划任务(如生成可执行的领域定义语言方案)。
- 对比方法:7种现有记忆架构(如MetaGPT、ChatDev)。
- 评估指标:任务完成奖励分(Reward)与token效率(Reward/token)。
- 结果:IMA平均奖励分提升38.6%(0.0833 vs. 0.0601),token效率最优(5.933×10⁻⁷)。
(2)案例研究(数据管道设计)
- 任务设定:8个异构智能体协作设计实时自动驾驶数据管道(输入:多模态传感器数据;输出:AWS架构方案)。
- 评估指标:LLM评委从可扩展性、可靠性、可用性、成本效益、文档质量5维度评分(1-10分)。
- 结果:IMA在全部指标上显著优于基线(如可靠性4.89 vs. 3.56),但需额外消耗32%的token(见Table 2)。
(3)技术细节
- 内存更新函数(图2):通过提示工程指导LLM将智能体输出整合到历史记忆中,确保信息浓缩且角色一致。
- 上下文构建算法(Algorithm 1):优先保留初始任务描述、智能体记忆和最近对话轮次,避免上下文窗口溢出。
科学价值:
- 提出首个面向多智能体的异构记忆理论框架,证实结构化记忆对复杂协作任务的必要性。
- 验证内生性更新相比传统摘要方法在角色一致性上的优势。
应用价值:
- 可扩展到需长期记忆的领域(如医疗决策、持续学习Agent)。
- 为多智能体系统的工业化部署(如自动化软件工程)提供新范式。
(注:全文约2400字,完整覆盖研究全貌,数据与术语均严格对标原文。)