本文档介绍了由徐德荣、温毅、贾鹏越、张颖一、张文林、王一超、郭慧峰、唐瑞明、赵翔宇、陈恩红、徐童等多位研究人员共同完成的一项原创性研究工作,题为“From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents”。该研究已被接收为ICLR 2026的会议论文。研究团队主要来自中国科学技术大学、香港城市大学、大连理工大学和华为技术有限公司。
研究背景 该研究属于人工智能领域,具体聚焦于大型语言模型驱动的对话代理的长期记忆管理。随着用户与对话代理交互时间的增长,积累的对话记录日益庞大。然而,大型语言模型受限于其有限的上下文窗口长度,难以在长程对话中维持连贯且个性化的记忆。尽管基于检索增强生成的外部记忆系统已被提出以解决此问题,但现有方法通常依赖于单一粒度(例如,按会话级别或轮次级别)对记忆进行分割和检索。这种方法难以捕捉深层次的记忆关联,导致检索结果要么信息不全(部分有用信息被遗漏),要么引入大量噪声,最终影响对话响应的质量和个性化水平。因此,该研究旨在解决现有方法的两个关键局限:一是多粒度记忆关联不足,二是缺乏自适应的多粒度记忆选择机制。
研究方法与工作流程 本研究提出了一个名为“MemGAS”的框架,旨在通过构建多粒度关联、自适应选择和检索来增强记忆的巩固与利用。该框架的核心工作流程可分为两个主要阶段:记忆关联构建 和 基于熵的路由器引导的检索与过滤。
第一阶段:多粒度记忆关联构建 1. 多粒度记忆元数据生成:对于每个对话会话,研究利用大型语言模型自动生成多粒度的记忆单元。这包括:原始的会话级文本、将会话分割为更细粒度的轮次级对话、由LLM生成的会话摘要以及从会话中提取的关键词。因此,每个记忆块被表示为一个包含四种粒度信息的复合体。 2. 动态记忆关联:当有新的记忆加入时,系统需要将其与历史记忆库建立联系。为此,研究采用了高斯混合模型(Gaussian Mixture Model, GMM)聚类策略。具体步骤为:首先,将记忆库中所有记忆的各个粒度(会话、轮次、摘要、关键词)编码为稠密向量。接着,计算新记忆与历史记忆在所有粒度上的成对相似度向量。然后,使用GMM对这些相似度向量进行聚类,将其划分为两个概率集合: * 接受集:与新记忆高度相似的历史记忆,将与新记忆建立直接的关联边。 * 拒绝集:与新记忆不相关的历史记忆,暂时不建立连接。 这个过程模拟了人脑的记忆巩固过程,有选择性地强化语境相关的记忆联系,并构建一个随时间演化的多粒度关联图。
第二阶段:基于熵的路由器、检索与过滤 当接收到用户查询时,MemGAS框架执行以下步骤: 1. 熵驱动的粒度选择:这是本研究的创新核心。对于给定的查询,框架会分别计算其与记忆库中所有记忆块在四种粒度(会话、轮次、摘要、关键词)上的相似度得分。对于每个粒度,将这些相似度得分通过Softmax函数归一化为一个概率分布,并计算该分布的香农熵。熵值的高低反映了查询与该粒度记忆匹配的确定性程度:熵值越低,表示匹配越确定、越清晰;熵值越高,表示匹配越模糊、不确定性越大。基于“低熵对应高置信度”的动机,框架通过归一化各粒度熵值的倒数,为每个粒度分配一个软权重。这使得系统能够为每个查询自适应地选择最合适的粒度组合,在信息完整性和检索噪声之间取得平衡。 2. 个性化PageRank检索:在确定了各粒度的权重后,将多粒度关联图视为一个图网络,其中每个记忆的每种粒度表示都是一个节点。利用上一步得到的权重对节点进行初始化,然后运行个性化PageRank算法。该算法不仅考虑节点与查询的直接相似性(由权重体现),还通过图结构传播重要性,使得那些与查询直接相关且在图网络中处于关键位置(即与其他重要记忆高度连接)的节点获得更高的排名。最终,选取排名最高的K个节点作为候选记忆上下文。 3. 基于LLM的冗余过滤:检索到的Top-K记忆可能包含冗余或噪声信息。为了进一步提升输入给响应生成模型(LLM)的上下文质量,研究引入了一个基于LLM的过滤机制。该机制使用精心设计的提示词,让LLM对检索到的多粒度记忆和原始查询进行综合分析,识别并剔除不相关或重复的内容,从而提炼出最精炼、最关键的信息用于最终的回答生成。
主要实验结果 研究在四个公开的长时记忆基准测试集上进行了全面的实验评估,包括LoCoMo、Long-MT-Bench+、LongMemEval-S和LongMemEval-M。评估任务涵盖问答和检索两个方面。 1. 整体性能:在问答任务中,MemGAS在绝大多数数据集和评估指标(如F1分数、BLEU、ROUGE、BERTScore以及GPT-4o作为评判员的评分)上均显著优于所有基线方法,包括Full History(使用全部历史)、MPNet、Contriever、MPC、Recursum、SECoM、HippoRAG 2、Raptor和A-Mem等。这表明MemGAS能更有效地整合和检索相关信息,生成更准确、更个性化的回答。在检索任务中,MemGAS在Recall@K和NDCG@K等指标上也 consistently取得了最佳性能,证明了其检索相关记忆的有效性和鲁棒性。 2. 消融研究:通过系统性地移除框架中的关键组件(高斯混合模型关联、个性化PageRank、记忆关联图、熵路由器),研究验证了每个模块的必要性。实验结果显示,移除任一组件都会导致性能下降,而同时移除所有组件(即退化为简单的单粒度向量检索)则导致性能大幅下滑(例如,在LongMemEval-S数据集上,F1分数从20.38降至13.78)。这充分证明了多粒度关联构建和自适应选择机制的综合贡献。 3. 详细分析: * 不同查询类型:MemGAS在各种查询类型上均表现出色,特别是在需要跨多个会话进行推理的“多会话”查询和“多跳检索”查询上优势明显,这说明其记忆关联机制能有效建立跨会话的语义链接。 * 不同Top-K设置:随着检索上下文数量K的增加,MemGAS的性能通常能持续提升或保持稳定,而某些基线方法在K过大时因引入噪声而性能下降,体现了MemGAS检索结果的高相关性和过滤机制的有效性。 * 效率分析:虽然MemGAS引入了额外的计算模块(如GMM聚类、PPR、路由决策和LLM过滤),但其带来的额外延迟非常小(在QA任务中增加约0.0191秒,在检索任务中增加约0.0079秒)。研究指出,LLM的API调用占据了端到端延迟的98%以上,因此MemGAS模块的开销在实际应用中是可接受的,在显著提升性能的同时保持了较高的计算效率。
结论与价值 本研究得出结论:MemGAS框架通过整合多粒度记忆单元、基于高斯混合模型的动态关联构建、熵驱动的自适应粒度选择以及基于LLM的过滤,成功解决了长时对话记忆中关联不足和选择僵化的问题。该框架显著提升了对话代理在长时交互中的记忆检索准确性和回答质量。 其科学价值在于:1)提出了一个模拟人类记忆巩固过程的计算模型,将记忆组织从单一粒度扩展到多粒度层次结构;2)引入了基于信息熵的自适应路由机制,为动态选择最优信息粒度提供了理论依据和实用方法;3)为构建更高效、更个性化的长期记忆系统提供了新的技术路径。 其应用价值在于:能够直接应用于各类需要长期、连贯交互的AI助手场景,如个性化客服、长期陪伴型聊天机器人、智能教学代理等,提升其对用户历史、偏好和上下文的理解深度,从而提供更一致、更贴切的个性化服务。
研究亮点 1. 核心创新:首次系统性地提出并实现了面向对话代理的多粒度长期记忆关联与选择框架,突破了现有方法局限于单一记忆粒度的范式。 2. 关键技术: * 多粒度记忆表示:综合利用会话、轮次、摘要、关键词四种不同抽象层次的记忆表示,丰富了记忆的信息维度。 * 基于GMM的动态关联:利用无监督聚类方法自动建立新记忆与历史记忆之间的语义关联,无需人工标注,实现了记忆网络的自主演化。 * 熵驱动路由器:创新性地使用香农熵来量化查询与不同粒度记忆匹配的不确定性,并据此进行自适应的权重分配,实现了查询感知的、动态的粒度选择。 * 图传播检索:结合个性化PageRank,在考虑直接相关性的同时,利用了记忆间的关联结构进行重要性传播,提升了检索质量。 3. 实证效果:在四个具有挑战性的长时记忆基准测试上取得了全面的、显著的性能提升,并通过详尽的消融实验和分析,验证了各模块的有效性和必要性。 4. 实用性与效率平衡:在实现性能大幅提升的同时,通过精心设计,将额外计算开销控制在很低水平,展现了良好的实用前景。
其他有价值内容 论文还包含了详细的附录,提供了数据集统计信息、与更多基线(如H-Mem, CoMEM)的对比结果、不同检索器和生成器的泛化性分析、超参数敏感性分析、错误案例分析、理论分析(关于GMM关联和熵路由器的数学解释)、完整的提示词设计以及具体案例研究。这些内容为理解和复现本研究提供了充分的支持,也展示了研究工作的严谨性和完整性。此外,论文包含了伦理声明和可复现性声明,体现了负责任的研究态度。