AgentCF++：基于记忆增强型LLM代理的流行度感知跨域推荐系统

分享自：
AgentCF++：基于记忆增强型LLM代理的流行度感知跨域推荐系统

期刊:Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '25)DOI:10.1145/3726302.3730161
【点击此处】阅读全文、收藏及针对性提问
基于大型语言模型的智能体在推荐系统中的应用：AgentCF++模型解读
本文介绍的是一项发表于第48届国际计算机学会信息检索特别兴趣组会议（SIGIR ‘25）的原创性研究。该研究由来自复旦大学和微软亚洲研究院的研究团队共同完成，主要作者包括刘嘉浩（Jiahao Liu）、顾盛康（Shengkang Gu）、李东升（Dongsheng Li）、张广平（Guangping Zhang）、韩明哲（Mingzhe Han）、顾寒苏（Hansu Gu）、张鹏（Peng Zhang）、陆韫（Tun Lu）、商丽（Li Shang）和顾宁（Ning Gu）。论文标题为《AgentCF++: Memory-Enhanced LLM-Based Agents for Popularity-Aware Cross-Domain Recommendations》，即“AgentCF++：用于感知流行度的跨领域推荐的记忆增强型基于LLM的智能体”。
一、 研究背景与目标
本研究属于人工智能领域下的信息检索与推荐系统方向。随着大型语言模型（LLM）能力的飞速发展，研究者开始探索利用LLM构建能够模拟用户行为的智能体（User Agent），以此作为增强推荐系统性能的一种新范式。这类智能体可以在受控、保护隐私的环境下，可靠地模拟用户与推荐系统的交互行为，从而为理解用户偏好、评估系统性能提供新的视角。
然而，现有基于LLM的用户智能体方法在应对真实世界场景时面临两大核心挑战： 1. 跨领域信息混杂问题：现实中的用户行为往往具有跨领域（Cross-Domain）特性。现有方法通常将用户在所有领域的偏好混合存储在单一的记忆（Memory）中。当智能体在特定领域进行决策时，大量无关的跨领域信息会形成噪声，干扰决策的准确性。 2. 流行度因素建模缺失：用户行为不仅受个人偏好影响，也常受他人（如流行趋势、社会影响）的影响。现有方法主要依赖用户自身的直接交互来更新记忆，无法有效捕捉和建模这种由“流行度”（Popularity）或他人行为带来的间接影响。这导致智能体模拟的行为与真实世界中受社交或趋势影响的用户行为存在偏差。
因此，本研究旨在改进现有的AgentCF模型，提出一个名为AgentCF++的新框架。其核心目标是：设计一种新的记忆架构与更新机制，使LLM用户智能体能够在跨领域场景中过滤无关信息，同时有效捕捉并整合流行度因素对用户行为的影响，从而更精准、更真实地模拟用户行为。
二、 研究方法与工作流程
AgentCF++延续了AgentCF的基本范式，即将用户和物品都视为智能体（Agent），通过它们之间的自主交互与反思（Reflection）来协同优化各自的记忆，最终模拟出与真实数据一致的用户行为。其核心创新在于对用户智能体记忆系统的重新设计。整个工作流程主要包含以下几个关键环节和组件：
1. 研究对象的构建与数据准备： 研究使用了公开的亚马逊评论数据集（Amazon Review Dataset）。为了构建跨领域推荐场景，研究者从书籍（Books）、CD、电影（Movies）和游戏（Games）四个领域中，选取3到4个组合，构建了五个跨领域数据集（Cross-1至Cross-5）。数据处理包括：筛选评分≥4的正面交互记录；选取2021年10月至2022年3月这六个月时间窗口内的数据；仅保留在多个领域有交互记录且总交互数≥10的用户；最终随机抽取100名用户以减少API调用成本。数据按时间顺序排序后，按8:1:1的比例划分为训练集、验证集和测试集。
2. 用户智能体的新型记忆架构： 这是本研究的核心创新之一。AgentCF++为每个用户智能体设计了一个双层记忆架构： * 领域分离记忆（Domain-Separated Memory）：为每个领域单独维护，仅存储用户在该领域内的特定偏好。这确保了领域内信息的纯净性。 * 领域融合记忆（Domain-Fused Memory）：同样为每个领域维护，但它不仅包含本领域的分离记忆，还通过一种融合机制，整合了来自其他相关领域的偏好信息。初始时，两种记忆均为空。
3. 兴趣群体与群体共享记忆的引入： 为了建模流行度影响，研究者提出了兴趣群体（Interest Group） 和群体共享记忆（Group-Shared Memory） 的概念。 * 兴趣群体构建流程： * 建立用户-标签关系：利用LLM处理用户的领域融合记忆，生成一组代表用户兴趣的标签。 * 合并同义标签：将所有标签通过LLM转化为嵌入向量，使用K-means聚类算法根据语义相似度进行分组，每个聚类代表一个兴趣领域。 * 精炼兴趣群体：LLM综合每个聚类中的标签，生成一个统一的兴趣组名称。最终仅保留覆盖用户主要兴趣的最大几个群体。 * 系统会定期重新划分兴趣群体，以反映用户偏好的动态变化。 * 群体共享记忆：每个兴趣群体拥有一个固定大小的共享记忆，用于存储该群体内用户最近的交互历史。这使得群体内的用户智能体可以间接感知到其他相似兴趣用户的行为，从而模拟流行趋势的影响。
4. 推理阶段（Inference Phase）： 当模拟一次用户u与物品i（属于领域d）的交互时，系统会从同一领域d中采样一个负样本物品j。用户智能体u将接收物品i和j的记忆，并被要求从中选出正样本（即用户更可能交互的物品）并解释其推理。在此决策过程中，用户智能体u会同时参考： * 其在目标领域d的领域分离记忆和领域融合记忆。 * 其所属兴趣群体的共享记忆。 这种设计确保了决策时主要依赖目标领域相关信息（通过双层记忆过滤了噪声），并融入了群体行为的影响（通过共享记忆感知流行度）。
5. 更新阶段（Update Phase）： 交互决策后，系统通过反思机制更新各记忆模块，这是模型学习的关键步骤： * 更新领域分离记忆：用户智能体u根据与物品i（正样本）和j（负样本）的交互结果，更新其在领域d的领域分离记忆。这一步让智能体学习从最新交互中喜欢什么、不喜欢什么。 * 更新领域融合记忆（两步融合机制）：这是另一个核心创新。为了有效整合跨领域信息，研究者设计了一个受注意力机制（Attention Mechanism）启发的两步融合机制： 1. 提取：用户智能体u从其他领域的领域分离记忆中，提取出与当前目标领域d相关的偏好知识。这类似于注意力机制中计算注意力得分，聚焦于相关信息。 2. 融合：基于提取出的相关偏好，更新其在领域d的领域融合记忆。这类似于注意力机制中的加权聚合过程。该机制确保了融合记忆能有效吸收有价值的跨领域知识，同时避免引入无关噪声。 * 更新物品记忆：物品智能体i和j根据用户u在领域d的领域融合记忆来更新自己的记忆。正样本物品i学习吸引具有何种偏好的用户，负样本物品j则学习不吸引具有何种偏好的用户。 * 更新群体共享记忆：用户的交互行为会被记录到其所属兴趣群体的共享记忆中，供群体内其他用户后续参考。
整个流程通过用户与物品智能体之间的循环交互与记忆协同更新，实现了所有记忆模块的自我优化与对齐。
三、 主要实验结果
研究在构建的五个跨领域数据集上进行了全面实验，以评估AgentCF++的有效性。 * 评估指标与方法：采用排序任务进行评估。对于每个测试集中的真实交互物品（正样本），随机从同一领域采样9个用户未交互过的物品作为负样本，组成候选集。用户智能体需要对这10个物品进行排序。使用NDCG和MRR作为评估指标，报告5次运行的平均结果。 * 基线模型：包括传统推荐模型（BPR-MF, SASRec）、无需训练的方法（基于流行度的排序Pop、基于序列相似度的LLMSeqSim、零样本排序器LLMRank）以及作为直接比较对象的AgentCF。 * 消融实验：设计了三个AgentCF++的变体以验证各模块贡献：(1) AgentCF + Dual：仅增加双层记忆架构；(2) AgentCF + Shared：仅增加兴趣群体和共享记忆；(3) AgentCF++ w/o Group：用户分组基于完整交互历史而非兴趣标签。
关键结果如下： 1. 整体性能优势：如表1所示，在跨领域数据集上，AgentCF++在MRR指标上** consistently outperforms **（持续优于）所有基线模型及其消融变体。它不仅显著超越了原始的AgentCF，也超越了传统的强基线模型SASRec。这证明了所提模块的整体有效性。 2. 模块有效性验证：两个消融变体（AgentCF + Dual 和 AgentCF + Shared）的性能均优于原始AgentCF，但低于完整的AgentCF++。这分别验证了双层记忆架构在过滤跨领域噪声、以及兴趣群体共享机制在建模流行度影响方面的独立贡献。两者的结合产生了最佳效果。 3. 兴趣分组策略的重要性：变体AgentCF++ w/o Group（基于交互历史分组）的性能不仅低于完整版，甚至低于仅使用双层记忆的变体（AgentCF + Dual）。这强有力地证明，基于兴趣相似性（而非简单交互历史）进行用户分组至关重要。基于兴趣的分组能更精准地界定受同一流行趋势影响的用户群体，防止流行度影响扩散至不相关的用户，从而避免了噪声引入和精度下降。
这些实验结果数据支撑了研究的核心论点：通过双层记忆过滤无关跨领域信息，并通过兴趣群体共享记忆建模流行度影响，能够显著提升LLM用户智能体在跨领域场景下模拟用户行为的准确性。
四、 研究结论与价值
本研究提出了AgentCF++，一个用于感知流行度的跨领域推荐的记忆增强型LLM智能体框架。其核心贡献在于： 1. 提出双层记忆架构与两步融合机制：有效解决了跨领域推荐中信息混杂带来的噪声问题，使智能体决策时能聚焦于目标领域相关信息。 2. 引入兴趣群体与群体共享记忆概念：创新性地建模了流行度因素对用户行为的影响，使得用户智能体能够通过观察相似兴趣群体的行为来动态更新自己的倾向，更真实地模拟社会影响。
该研究的科学价值在于，它深入剖析了现有LLM用户模拟智能体在复杂现实场景（跨领域、社会影响）下的局限性，并提出了系统性的、可解释的解决方案。它不仅推动了用户行为模拟技术的发展，也为理解如何将社会计算、注意力机制等思想融入LLM智能体架构提供了新思路。
其应用价值在于，所提出的框架能够生成更高质量、更贴近现实的模拟用户行为数据。这些数据可以用于：1) 更可靠地离线评估和优化推荐算法；2) 作为数据增强手段，训练更鲁棒的推荐模型；3) 在保护用户隐私的前提下，进行推荐系统的压力测试和“如果-那么”场景分析。
五、 研究亮点
问题定义精准：清晰指出了当前LLM用户智能体在跨领域信息噪声和流行度因素建模缺失两大关键瓶颈，研究目标明确。
方法设计新颖且系统：提出的双层记忆（分离与融合）与群体共享记忆并非孤立创新，而是与两步融合机制、基于兴趣的聚类方法紧密结合，形成了一个协同工作的有机整体，同时解决了两个核心问题。
机制启发性强：两步融合机制巧妙借鉴了注意力机制的思想（提取与聚合），为跨领域知识迁移提供了新方法。兴趣群体的构建超越了简单的协同过滤，基于语义兴趣进行划分，更符合流行度影响的本质。
实验验证充分：通过在不同跨领域数据集上的综合实验，以及与多种基线、消融实验的对比，扎实地证明了每个模块的有效性和必要性，特别是关于分组策略的发现具有重要启示意义。
对“流行度”的辩证看待：研究明确区分了推荐系统去偏（目标是消除流行度影响以发现真实偏好）与用户行为模拟（目标是建模包含流行度影响在内的真实行为）这两个不同任务。本研究坚定地站在后者的立场，明确指出在行为模拟中，流行度是需要被显式建模的关键因素，而非需要消除的干扰项，这一观点具有重要的方法论意义。
六、 其他有价值的内容
论文在引言部分通过一个生动的时序二分图例子（图1b），直观展示了AgentCF在模拟受流行度影响的行为时的失败案例，以及AgentCF++如何通过共享记忆机制解决该问题，使得论述非常清晰。同时，研究团队已公开代码，有助于促进该领域的可复现性和后续研究。
AgentCF++是一项设计精巧、验证扎实的工作，它显著推进了基于LLM的用户行为模拟技术在复杂、真实场景下的应用能力，为构建更智能、更拟人化的推荐系统模拟环境提供了有力的工具和思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问