本报告介绍的文档是一篇即将在学术会议上发布的教程提案,属于类型b。
论文标题: Conversational Agents: From RAG to LTM 主要作者及机构: Dell Zhang (中国电信TeleAI研究院), Yue Feng (英国伯明翰大学), Haiming Liu (英国南安普顿大学), Changzhi Sun, Jixiang Luo, Xiangyu Chen, Xuelong Li (中国电信TeleAI研究院)。 发表信息: 本文为一份已获接受的教程提案,将于2025年12月7日至10日在中国西安举行的ACM SIGIR-AP 2025 (第2025届ACM SIGIR亚太地区信息检索研究与发展会议) 上以半天的讲座形式呈现。
论文主题: 本教程系统地阐述了基于大语言模型 (LLM) 的对话代理 (Conversational Agents) 从检索增强生成 (RAG) 向长期记忆 (LTM) 机制的演进,旨在为研究人员和实践者构建下一代具备类人记忆能力的智能对话AI提供全面的知识框架。
主要内容与观点:
1. 动机与背景:现有LLM对话系统的核心局限与RAG的不足 本教程开篇明确指出,尽管大语言模型 (LLM) 在语言理解与生成上取得了显著进步,但其固有的固定上下文窗口从根本上限制了其在持续、复杂人机交互中的应用。这导致LLM在长程对话中容易出现“遗忘”先前对话轮次、缺乏一致的人设以及无法进行长视野推理等问题。检索增强生成 (RAG) 通过将LLM与外部知识库连接,提供了一种缓解方案,但其传统的静态“检索后生成” (retrieve-then-generate) 流程也存在固有缺陷。教程详细剖析了RAG的局限性:首先,其知识集成往往是静态的,难以适应动态变化的对话语境和用户偏好;其次,检索过程可能引入噪声或不相关信息,影响生成质量;最后,传统RAG常忽视知识间的结构化关联,限制了复杂推理能力。因此,单纯依赖RAG或扩大上下文窗口均非解决长程对话一致性和个性化问题的终极方案。这构成了本教程推动从RAG向更先进的长期记忆 (LTM) 机制演进的核心动机。
2. 核心演进方向:引入长期记忆 (LTM) 作为下一代对话智能的基石 教程提出,实现真正智能、自适应且可信赖的对话代理的关键一步,是超越静态的RAG,迈向动态、自适应的长期记忆 (LTM)。LTM为对话代理赋予了类人的记忆能力,使其能够实现几个关键目标:跨长时间线保留和回忆重要事件,防止记忆漂移或身份丢失;从持续对话中动态提取、巩固和检索关键信息;基于累积的交互经验进行自我进化;维持一致的人设并跟踪用户偏好的长期演变;以及整合文本、图像、视频、音频等多模态信息,构建对环境更丰富的理解。教程强调,记忆是智能的基础,它塑造身份、指导决策,并支持学习和适应,这一原理同样适用于AI系统。因此,构建高效的LTM机制是实现AI自我进化 (AI self-evolution) 和开放环境中自主技能获取的关键。
3. LTM的架构、形式与操作管理机制 这是本教程的技术核心部分,详细拆解了LTM的实现方式。教程将LTM架构分为三种主要形式:首先是文本LTM,包括存储原始上下文、摘要(如MemGPT的FIFO队列、MemoryBank等)以及结构化的文本笔记(如A-Mem的互连笔记),并探讨了如何通过文本描述处理多模态输入(如VideoAgent, M3-Agent)。其次是图LTM,以知识图谱的形式表示记忆(如Mem0-g、Zep、HippoRAG),能够捕获复杂的关联结构和时间动态,支持多跳推理。最后是参数化LTM,通过微调或记忆编辑将知识编码到模型参数中(如MemoryLLM、M+),讨论了显性与隐性内存的区别。在操作管理层面,教程涵盖了四大关键流程:索引与存储,即将交互转化为可存储单元(键值对、事实、事件、三元组等)并进行多尺度、层次化组织;检索,涉及稠密嵌入、局部敏感哈希 (LSH)、主动检索、查询扩展和重排序等技术;更新与巩固,包括动态地添加、更新、删除或合并记忆条目,以及递归摘要、后思考 (post-thinking) 和记忆进化(如Mem1, Memory-R1)等策略;以及多模态LTM集成,处理实时视觉和听觉输入以构建和更新情景与语义记忆。
4. LTM的评价体系与挑战 为了科学评估LTM机制的有效性,教程介绍了一系列专门的评测基准 (Benchmarks) 和指标 (Metrics)。重要的基准包括用于评估英文长程对话记忆的LoCoMo、中文评估基准ZH-4O、以及LocCo、LongMemEval、MemoryAgentBench和M3-Bench等。评估指标则综合了传统的自动化指标(如F1分数、ROUGE、BLEU)、基于LLM的评判 (LLM-as-a-judge),以及针对对话质量的人工评估维度(如连贯性、一致性、吸引力和反思性)。此外,教程深入探讨了当前LTM研究面临的开放挑战与未来方向:包括如何融入更类人的记忆过程(如遗忘、巩固、选择性注意力);应对海量、无界上下文的可扩展性问题;实现跨模态的记忆融合与推理;提升记忆机制的鲁棒性和可解释性;处理与个性化记忆相关的伦理问题(如偏见、隐私和控制);通过强化学习 (Reinforcement Learning) 优化代理的记忆管理策略;以及最终推动AI在开放环境中的自我进化与自主技能获取。
5. 教程的独特性与对信息检索 (IR) 社区的高度相关性 教程强调其区别于SIGIR等会议上已有关于对话代理和RAG的教程的特色在于两点:一是对多模态交互的重视,二是对责任人工智能 (Responsible AI) 设计的强调。更重要的是,这是首次在SIGIR及相关会议上系统性地介绍长期记忆 (LTM) 技术。本教程与信息检索 (IR) 社区高度相关,因为RAG本质上是一个IR任务,而LTM的概念则将传统IR的边界扩展到了动态积累、更新和组织长期对话历史与用户偏好这一新领域。这为IR社区带来了从开发更复杂的、能处理对话上下文的检索模型,到设计高效记忆存储的索引与更新机制等一系列新颖且激动人心的研究问题。
6. 实践资源与讲者介绍 教程不仅提供理论框架,还配备了丰富的实践材料,包括演示幻灯片、Python Jupyter notebook形式的动手实践示例,以及一个名为awesome-agent-memory的GitHub精选资源页面,汇总了相关数据集、参考文献等资源。教程的七位讲者均来自学术界和工业界(中国电信TeleAI研究院及英国知名高校),在机器学习、信息检索、自然语言处理、多模态AI等领域拥有深厚的研究背景和丰富的实践经验,确保了教程内容的深度与广度。本教程本身也是TeleAI研究院关于“具备长期记忆的代理”的TeleMem研究项目的副产品。
意义与价值: 本教程《Conversational Agents: From RAG to LTM》具有重要的学术引领和实践指导价值。在学术上,它首次在顶级IR会议上系统性地梳理和构建了从RAG到LTM的知识体系,明确了LTM作为下一代对话智能核心组件的地位,并清晰地勾勒了其技术架构、评估方法和未来挑战,为相关领域的研究者指明了方向。在实践上,教程深入浅出地介绍了多种LTM实现范式(文本、图、参数化)和具体系统(如Mem0),并提供了实用的评测基准和代码资源,有助于工业界研发人员构建更强大、更个性化、更具一致性的现实世界对话AI应用。最终,本教程致力于推动构建能够进行持续、连贯、个性化交互,并具备长期学习和自我进化潜能的智能代理,对人工智能走向更通用、更可靠的长期目标具有积极的推动作用。