作者与机构
本研究由Jiayan Nan*†、Wenquan Ma*‡、Wenlong Wu、Yize Chen*合作完成。Jiayan Nan来自同济大学计算机科学与技术学院;Wenquan Ma隶属上海财经大学统计与管理学院;Wenlong Wu就职于北京航空航天大学仪器科学与光电工程学院;Yize Chen则任职于Tanka AI。论文目前以预印本形式发布于arXiv平台(arXiv:2508.03341v3),提交日期为2025年8月27日。
科学领域定位
该研究属于人工智能领域的对话系统方向,聚焦于大语言模型(LLMs)的长时记忆增强这一关键挑战。随着LLMs在单次交互中展现出令人印象深刻的上下文理解能力,其在跨会话场景下的”遗忘”问题成为制约智能体长期自主进化的核心瓶颈。这一问题源于两个技术限制:基于O(n²)注意力复杂度的有限上下文窗口,以及长文本信息处理的”中间丢失”现象。
背景知识
传统解决方案主要基于检索增强生成(Retrieval-Augmented Generation, RAG)框架,但其设计初衷面向静态知识库,在处理动态对话流时存在三大固有缺陷:(1)无状态的信息补丁模式阻碍状态化学习;(2)离线索引机制不适用于在线对话流处理;(3)事实检索范式难以支持对话所需的复杂局部-全局推理。这催生了记忆增强生成(Memory-Augmented Generation, MAG)新范式,旨在将智能体的生活经验自主组织为优化表征。
研究目标
针对现有MAG系统在自组织方面的不足,本研究提出Nemori架构,其核心目标是:通过认知科学启发的双支柱框架,解决记忆单元定义(输入分块x)和组织机制(函数f)这两个序列性挑战。具体而言,研究团队试图开发:(1)基于事件分割理论(Event Segmentation Theory)的语义连贯经验分块方法;(2)基于自由能原理(Free-Energy Principle)的预测-校准主动学习机制。
整体架构
Nemori采用三级模块化设计(如图1所示): 1. 话题分割模块:实现边界对齐(Boundary Alignment)
2. 情景记忆生成模块:实现表征对齐(Representation Alignment)
3. 语义记忆生成模块:实现预测-校准原则(Predict-Calibrate Principle)
双步骤对齐原则实施
边界对齐阶段采用基于LLM的智能边界检测器fθ,动态分析消息缓冲区内四个维度的信号:上下文连贯性、时间标记、用户意图转移和结构特征。其输出为结构化决策元组(b_boundary, c_boundary),触发条件满足以下逻辑表达式: > t = (b_boundary ∧ c_boundary > σ_boundary) ∨ (|m| ≥ β_max)
表征对齐阶段通过情景记忆生成器gϕ将原始对话片段转化为结构化情景记忆e = (ξ, ζ),其中ξ为浓缩主题的标题,ζ为第三人称叙述体细节。这种双重表征既保留原始交互的时空背景,又提取语义精华。
预测-校准原则实践
该机制通过三阶段循环实现: 1. 预测阶段:基于新情景的标题ξ,系统首先检索相关语义记忆K_relevant,后通过情景预测器hψ生成预测内容ê
2. 校准阶段:语义知识蒸馏器rω对比预测ê与原始对话m,提取预测差距中的新颖知识K_new
3. 整合阶段:将K_new增量更新至语义记忆库K
关键技术突破包括:用于边界检测的拓扑敏感算法、异步预测-校准流水线设计,以及基于稠密向量搜索的三阶段统一检索机制(相似度计算→候选选择→阈值过滤)。
评价体系
研究采用Locomo(24k平均token)和LongMemEvals(105k平均token)两个基准数据集,设置四类研究问题(RQ):
| RQ编号 | 研究问题焦点 |
|---|---|
| RQ1 | 长时记忆任务性能对比 |
| RQ2 | 关键组件的贡献度 |
| RQ3 | 情景记忆检索数量影响 |
| RQ4 | 超长上下文扩展性 |
主要发现
1. 性能优势(表1):
- 在GPT-4o-mini上,Nemori总体LLM评分达0.744,超越全上下文基线的0.723
- 时态推理任务表现尤为突出(0.710 vs 0.562),如”Jon何时获得指导”案例中,Nemori能结合情景记忆与语义事实(”2023年6月15日”)实现准确回答
效率突破(表2):
消融分析(表3):
超参数响应(图4):
扩展性验证(表4):
理论贡献
1. 提出认知启发的双支柱框架:
- 两步对齐原则解决经验表征的信效度问题
- 预测-校准原则实现主动知识蒸馏
2. 建立动态对话记忆的新范式,将记忆构建重构为增量学习过程
实践意义
1. 为开发具备持续学习能力的自主智能体提供基础构件
2. 开源实现(GitHub/nemori-ai)促进社区发展
3. 在医疗对话、个性化教育等长时交互场景具有应用潜力
创新亮点
1. 方法论创新:首次将事件分割理论与自由能原理系统引入对话记忆建模
2. 技术突破:
- 自上而下的智能边界检测器
- 异步预测-校准管道设计
3. 性能里程碑:
- 首个在105k-token场景实现实用化的记忆架构
- 88%的上下文压缩率保持性能优势
局限与展望
研究发现对单会话助理任务存在细节丢失现象(83.9% vs 89.3%),未来可探索情景-语义记忆的更优耦合方式。团队计划:(1) 扩展多模态记忆处理;(2) 研究记忆压缩的神经机制;(3) 开发终身学习框架下的动态遗忘机制。这项研究为突破LLMs的”记忆失语症”提供了原创性解决方案,推动人工认知系统向人类式持续学习迈进。