分享自:

AgentDR:基于LLM智能体的、利用隐式物品关系进行动态推荐的框架

期刊:Proceedings of the ACM Web Conference 2026 (WWW '26)DOI:10.1145/3774904.3792304

在2026年4月13日至17日于阿拉伯联合酋长国迪拜举行的第35届ACM网络大会(WWW ‘26)上,来自美国伊利诺伊大学芝加哥分校、密歇根大学以及亚马逊公司的研究人员发表了一篇题为《AgentDR: Dynamic Recommendation with Implicit Item-Item Relations via LLM-based Agents》的研究论文。该研究由Mingdai Yang、Nurendra Choudhary、Jiangshu Du、Edward W. Huang、Philip Yu、Karthik Subbian以及Danai Koutra(通讯作者)共同完成。这项研究聚焦于一个信息科学领域的关键问题:如何构建更高效、更精准的推荐系统。随着大型语言模型(Large Language Models, LLMs)在自然语言理解和常识推理方面展现出强大能力,研究者们开始探索将其应用于推荐任务。然而,直接将LLMs用作推荐器面临着两大核心挑战:一是“幻觉”问题,即模型可能生成不存在于产品目录中的物品;二是“令牌限制”问题,LLMs难以对包含成千上万物品的大型商品目录进行高效的全量排序(full-ranking)。与此同时,传统的基于ID的推荐模型虽然擅长从用户-物品交互数据中挖掘协同过滤和序列模式,却难以捕捉物品之间复杂的语义关系,例如替代品(substitutes)和互补品(complements)。这些关系通常是隐含的,需要借助外部知识或深度语义理解才能推断,而这正是LLMs的潜在优势。因此,本研究旨在弥合传统推荐模型与LLMs之间的鸿沟,提出一个名为AgentDR的新型智能体框架。其核心目标是:在避免幻觉、支持大规模全量排序的前提下,巧妙地融合传统推荐模型的排序能力和LLMs的语义推理能力,通过理解用户意图和物品间的隐含关系来动态提升推荐质量。

为了实现上述目标,AgentDR设计了一个精巧的两阶段工作流程,围绕为每个用户构建一个独立的LLM智能体(Agent)展开。该智能体配备了两个核心记忆模块:推荐工具记忆(RecTool Memory)用户意图记忆(Intent Memory)。整个框架的工作流程如下:

第一阶段:智能体优化与内容生成 在此阶段,系统利用用户的历史交互序列对智能体进行个性化优化,并生成必要的推理内容。 1. 用户画像生成:首先,系统将用户历史交互物品的文本描述(如商品标题)输入LLM,通过提示工程(Prompt Engineering)让LLM总结出该用户的偏好画像(Profile)。例如,从用户购买过的“意式浓缩咖啡豆”、“法压壶”、“咖啡杯”等物品中,LLM可能推断出用户是一位“咖啡爱好者”。 2. 替代与互补物品生成:这是利用LLM世界知识的关键步骤。系统选取用户最近交互的若干物品(例如最近购买的10件商品),将其描述输入LLM。通过特定的提示,要求LLM为这些物品分别生成可能的替代品列表互补品列表。例如,对于“数码单反相机”,LLM可能生成“三脚架”作为互补品,生成“微单相机”作为替代品。这一步骤将原本需要对所有物品进行两两关系标注的O(|I|²)复杂度,降低到了为每个用户生成列表的O(|U|)复杂度,极大地提升了可扩展性。 3. 个性化工具选择(优化RecTool Memory):系统预设了多个传统的全量排序推荐模型作为“工具”,例如基于图的模型LightGCN、序列模型SASRec和矩阵分解模型SimpleX。为了判断哪个工具最适合当前用户,智能体通过两种方式更新RecTool Memory中的工具权重: * 基于LLM的工具比较:将每个工具推荐出的Top-K物品描述,与用户真实后续交互的物品描述一同输入LLM,让LLM判断哪个工具推荐的结果与用户真实偏好最匹配。被选中的工具其权重会增加。 * 基于排名的工具比较:定量地计算每个工具对用户近期未用于训练的真实物品的排序性能(例如,根据物品在推荐列表中的排名计算得分),性能越好,权重增加越多。 通过这两种方式,智能体学习到针对当前用户,哪个或哪些推荐工具的“意见”更值得信赖。 4. 用户意图判别(优化Intent Memory):为了理解用户下一步行为是寻找替代品、互补品还是出于一般兴趣,智能体通过LLM进行意图判别: * 将之前生成的替代品列表和互补品列表,与用户真实后续交互的物品进行对比,由LLM判断用户的真实行为更倾向于替代模式还是互补模式。 * 同时,另一个LLM模块会判断用户行为是否表现出清晰的替代或互补模式,若无,则归类为“一般兴趣”。 根据LLM的判断结果,意图记忆(Intent Memory)中对应的替代(msub)、互补(mcom)或一般(mreg)意图权重会得到更新。

第二阶段:排序生成与精炼 在此阶段,智能体利用第一阶段优化好的记忆和生成的内容,对传统工具的推荐结果进行融合与重排序,生成最终推荐列表。 1. 排名聚合:根据RecTool Memory中各工具的权重,对它们输出的全量物品排序分数列表进行加权求和,得到一个初步的聚合排名列表。 2. 双重S&C重排序:系统取出聚合列表中的Top-K‘个候选物品。然后,利用LLM分别以之前生成的替代品列表互补品列表为参考,对这个Top-K‘候选列表进行两次独立的重排序。LLM的任务是根据语义相关性,重新排列这些候选物品的顺序。为了彻底解决幻觉问题,系统采用了一个基于规则的过滤机制:只保留重排序输出中存在于真实商品目录的有效物品ID,缺失的位置用原始候选列表中的物品按序补全。 3. 个性化融合与最终排序:将两次重排序的结果(替代重排序列表和互补重排序列表)根据Intent Memory中对应的权重(msub和mcom)进行融合,生成一个考虑了用户特定意图的排序列表。接着,这个列表再与基于用户一般兴趣画像(由LLM根据用户画像对同一Top-K‘列表进行重排序得到)的排序结果,按照一般兴趣权重(mreg)进行最终融合,产生最终的推荐列表。

为了验证AgentDR的有效性,研究团队在三个公开的电商数据集(Instacart, Electronics, Sports)上进行了广泛的实验。他们选取了多个强大的基线模型进行对比,包括传统的推荐模型(如ENMF、DiffRec、FEARec)、纯语言模型方法(BM25、LLMRanker)以及将推荐工具与检索增强生成(Retrieval-Augmented Generation, RAG)结合的方案。评估指标除了常用的Recall@K和NDCG@K外,作者还创新性地提出了一个基于LLM的评估指标——邻近折损累积增益(Vicinity-DCG, VDCG)。该指标要求LLM评估推荐列表中每个物品与用户真实目标物品在语义上的相关程度(0-9分),然后计算DCG。VDCG能够同时衡量推荐列表的语义相关性和排序正确性,弥补了传统指标仅关注ID匹配而忽略语义相近性的不足。

实验取得了显著的结果。首先,在全量排序性能(RQ1) 方面,AgentDR在所有三个数据集上的Recall和NDCG指标均显著优于所有基线模型。即使与性能强大的DiffRec相比,也取得了最高33.5%的Recall提升和28.4%的NDCG提升。更重要的是,与作为其基础组件的单个推荐工具(如SASRec)相比,AgentDR consistently实现了至少33.3%的性能提升,这证明了框架整合与推理能力的有效性。纯语言方法(BM25, LLMRanker)表现不佳,凸显了在个性化推荐中捕捉用户行为模式的重要性。而简单的RAG方案由于依赖单一工具的检索结果且输入文本噪声较大,性能提升不稳定且有限。

其次,在语义邻近性评估(RQ2) 方面,VDCG指标的结果提供了更深层次的洞察。虽然纯语言方法和RAG方案在传统排序指标上表现一般,但它们的VDCG分数相对较高,说明其推荐列表在语义上更贴近用户兴趣。这证实了LLM在语义理解方面的价值。而传统ID推荐器在有些数据集上VDCG较低,暴露了其推荐结果可能语义相关性不足的问题。AgentDR在大多数情况下取得了最高的VDCG分数,表明它成功地将传统模型的排序能力与LLM的语义推理能力结合起来,生成了既准确(命中目标)又相关(语义贴近)的推荐列表。消融实验进一步证明,移除LLM重排序模块会导致VDCG显著下降,凸显了这些模块对于提升语义对齐的关键作用。

此外,研究还对排名聚合策略(RQ3)各模块贡献(RQ4) 进行了深入分析。作者尝试用可学习的线性模型、多层感知机(MLP)等替代简单的排名比较机制,发现这些更复杂的聚合方法能带来进一步的性能提升(最高13.56% NDCG提升),但也会增加计算复杂度。消融研究表明,工具比较(Tool Comparison)模块在多数情况下能提升性能,而双重S&C重排序(Dual S&C Reranking) consistently优于仅使用替代或互补单一模式的重排序。同时,一般兴趣重排序(General Reranking) 模块作为一个有效的正则化组件,在多数设置下都能带来增益,确保了在物品间关系信号较弱时的推荐鲁棒性。

本研究的主要结论是:提出的AgentDR框架成功地将传统推荐模型的可扩展性、全量排序能力与大型语言模型的常识推理、语义理解能力相结合,有效地缓解了LLM直接用于推荐时的幻觉和令牌限制问题。通过个性化的工具选择、用户意图推理以及基于替代/互补关系的重排序,该框架显著提升了推荐系统在真实全量排序场景下的性能,并改善了推荐结果的语义相关性。其科学价值在于为基于LLM的智能推荐系统设计提供了一个新颖、有效的范式,证明了“分工协作”——让传统模型负责大规模候选生成,让LLM负责高层语义推理与结果精炼——是一条可行的技术路径。在应用层面,AgentDR框架具有实际的部署潜力,尤其适用于商品关系显性化重要的领域(如电商、零售),能够为用户提供更智能、更贴合复杂意图的个性化推荐。

本研究的亮点突出体现在以下几个方面:第一,提出了一个解决LLM应用于推荐系统核心痛点(幻觉、全量排序)的创新框架,具有清晰的工程实现思路。第二,创造性地利用LLM挖掘数据中隐含的替代与互补关系,并将其转化为可操作的推荐信号,这是一种低成本利用外部知识的有效方法。第三,引入了基于LLM的VDCG评估指标,为衡量推荐系统的语义质量提供了新的视角和工具。第四,框架设计具有良好的灵活性和可扩展性,其智能体记忆、工具集成、重排序模块均可替换或增强,为后续研究留下了空间。当然,作者也指出了当前工作的一个局限性:替代与互补关系在日用品杂货等领域比在电影、音乐等领域更为普遍和重要,因此框架在不同领域的泛化能力有待进一步验证。总体而言,这项研究为下一代融合感知与推理的推荐系统的发展做出了扎实而富有启发性的贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com