本文档是一篇发表于 IEEE Transactions on Software Engineering 期刊的系统性文献综述 (Systematic Literature Review, SLR)。该研究由来自加拿大滑铁卢大学(University of Waterloo)计算机学院的 Ivens da Silva Portugal, Paulo Alencar, 以及 Donald Cowan 三位学者合作完成。
该综述的核心主题是智能体化推荐系统 (Agentic Recommender Systems, ARS)。这是一个新兴的研究领域,源于大型语言模型 (Large Language Models, LLMs) 智能体与推荐系统的结合。研究指出,随着自然语言处理(NLP)和LLM的进步,能够自主规划、与环境交互、使用工具的LLM智能体开始被应用于推荐系统中,由此催生了多智能体推荐系统,即智能体化推荐系统。然而,这一领域尚处于早期阶段,在系统建模与设计的基础要素方面缺乏清晰的界定和深入的理解。因此,本综述旨在通过系统性地梳理和分析现有文献,对智能体化推荐系统的关键构成、实现方式和评估现状进行全面刻画,以支持该领域的持续研究与发展。
本文档作为一篇系统性的文献综述,其严谨性体现在明确的研究方法上。作者团队采用了一套详尽的协议来确保研究的系统性和可重复性。该协议包括以下几个关键步骤:
首先,研究者明确了本次综述的目标(Goal),即从系统角度出发,刻画文献中报告的智能体化推荐系统的特征。这一目标被具体化为一系列研究问题(Research Questions, RQs),共15个,涵盖了ARS的核心维度。这些问题包括:ARS中使用了哪些智能体(LLM agent)及其角色?它们之间的关系如何刻画?使用了哪些提示词(prompt)及其结构?系统如何与其他平台集成?有哪些用例(use cases)?采用了何种推荐策略?使用了哪些数据集、评估指标和基线进行评测?以及现有文献中报告了哪些研究空白?
其次,研究者制定了详细的检索策略。检索范围涵盖四个主要的科学搜索引擎:Scopus, Web of Science, ACM Digital Library 和 IEEE Xplore,并利用Scopus的功能检索了包括arXiv在内的预印本数据库。检索关键词围绕三个核心术语及其变体构建:“recommender system/recommendation system”、“LLM/large language model”以及“agent/agentic”。初始检索共获得140篇相关文献。
随后,研究者设定了严格的纳入与排除标准。这些标准旨在筛选出与核心研究主题直接相关、具有实质性内容的学术文献。例如,排除了无法获取的、非英文的、工作坊/会议论文集简介、研究提案、观点/立场论文、学位论文、书籍,以及与此领域相关的其他综述(但将其作为相关文献列出)。更重要的是,研究排除了那些不在推荐系统领域、未提出推荐系统框架、或不属于智能体化推荐系统范畴的文献(例如,仅将LLM用于用户模拟、强化学习智能体、或关注推荐系统安全性和可解释性但非核心ARS设计的论文)。经过筛选,最终有44篇文献被纳入本综述进行深入分析。
对纳入的44篇文献,研究者进行了系统的数据提取与分析。提取的数据项与前述15个研究问题一一对应,包括智能体名称与角色、使用的LLM模型、知识增强策略、智能体间关系、提示词的结构元素、系统集成、用例、数据集、评估指标与结果等。基于这些数据,研究者对各研究问题进行了详尽的解答和讨论,形成了以下主要观点和发现。
主要观点一:智能体化推荐系统的架构、智能体角色与关系已呈现出清晰的模式。 研究发现,ARS通常采用多智能体架构,平均每个系统包含3.6个智能体,倾向于使用少量工具,以在准确性、个性化与性能之间取得平衡。研究者从文献中识别出了13种独特的智能体角色,包括:管理者(Manager)、推荐器(Recommender)、解释器(Interpreter)、守门员(Gatekeeper)、目标规划器(Goal Planner)、用户代理(User Agent)、物品代理(Item Agent)、领域特定代理(Domain-specific Agent)、搜索器(Searcher)、反射器(Reflector)、响应器(Responder)、反馈代理(Feedback Agent)以及作为非智能体补充的工具(Tools)。其中,大多数研究包含管理者或推荐器,两者常由同一个智能体担任。智能体间的关系普遍遵循以管理者为中心的布局,由它协调其他智能体的活动。此外,也出现了基于投票或讨论的布局变体。基于这些发现,研究者构建了一个通用化的智能体化推荐系统框架。该框架描绘了从用户请求开始,经过一系列智能体(如解释器、目标规划器、用户/物品代理、推荐器、反射器、响应器等)的协作处理,最终生成推荐并呈现给用户的典型工作流程,为未来的系统设计提供了参考蓝图。
主要观点二:在技术实现层面,GPT模型和In-Context Learning (ICL) 占据主导地位,提示词工程已有一定规律可循。 在模型选择方面,GPT系列模型在ARS研究中占据绝对主导地位,超过一半的研究(44篇中的31篇)使用了GPT(包括3.5, 4, 4.1, 4o等版本),其次是Llama模型。这主要归因于其便捷的API、高流行度和良好性能。研究也指出了几个未充分探索的方向:远程执行(GPT)与本地执行(Llama)在性能与安全上的权衡有待研究;其他流行模型如Gemini、Claude、DeepSeek等在ARS中的表现尚不清楚;以及多模态推荐(结合图像、音频、视频)这一领域仍有待开发。在知识增强方面,In-Context Learning (ICL) 是最常用的策略,即通过提示词向LLM智能体提供数据(如用户历史交互、候选列表)。相比之下,微调(Fine-tuning)和检索增强生成(RAG)的使用较少。这一现象部分源于GPT等模型API对ICL的便利支持,但也暴露出缺乏专门针对LLM智能体的知识增强框架的问题。
关于提示词结构,研究者分析了28个来自文献或相关代码仓库的提示词案例,归纳出其常见结构元素。大多数研究为智能体定义了人物角色(Persona)(如“你是一个推荐系统”)和明确的任务指令(Instruction)。几乎所有提示词都包含某种形式的输入数据(Input Data),最常见的是用户历史交互。输出格式(Output Format) 的规范非常普遍,以确保结果的结构化和易于解析。此外,许多提示词包含了对智能体行为的引导或限制(Cues),例如“要有帮助”、“不要产生幻觉(hallucinate)”、“仅使用候选列表中的物品”等。值得注意的是,示例(Examples) 和明确的执行步骤(Steps) 在提示词中使用较少,这为提示工程留下了改进空间。研究者进一步总结了最常用的提示工程策略,即“角色+指令+零样本(Role+Instruction+Zero-shot)”的混合策略,因其简单直接而被广泛采用。更复杂的策略,如基于推理的思维链(CoT),则较少见。基于这些分析,研究者在文中给出了一个通用化的提示词模板,融合了角色、指令、输入数据、上下文、步骤、引导、输出格式和示例等元素,为实践者提供了有益起点。
主要观点三:在评估方面,ARS研究广泛采用传统推荐系统数据集和指标,但缺乏统一基准和深入的性能理解。 在数据集方面,Amazon、Yelp和MovieLens是ARS评估中最常用的公开数据集。这为不同研究的比较提供了一定基础,但也反映出对更广泛和更具挑战性数据集的需求。在评估指标上,NDCG@K和Recall@K 是最为常见的指标,这与传统推荐系统评估保持一致。然而,综述也指出,不同研究在报告指标值时使用的基线(Baselines)模型差异很大,这给横向比较和判断ARS的绝对性能提升带来了困难。更重要的是,研究者从文献中识别出一个关键问题:对智能体化推荐系统的评估仍然侧重于最终推荐列表的准确性,而缺乏对系统内部运作效率(如智能体协作开销)、用户交互体验质量、安全性或可解释性等方面的综合评估。
主要观点四:本文档系统地识别了大量有待探索的研究空白,为该领域指明了未来方向。 研究者基于对44篇文献的分析,在回答各个研究问题的同时,总结了多个开放的研究问题和方向。这些研究空白涵盖了从基础架构到高级应用的各个层面: 1. 架构与协作模式:例如,探索智能体间竞争而非纯粹协作的推荐生成模式;研究更复杂的层次化(如树状结构)推荐工作流;深入探究多模态(图像、音频等)推荐的可能性。 2. 智能体能力与个性化:例如,研究具有类人化特征(如姓名、情感化交流)的智能体如何影响用户体验;探索基于用户特征或情绪动态调整智能体角色或提示词以实现深度个性化(如FreudianRS中探索的心理层面个性化)。 3. 技术与工程实践:例如,评估不同LLM模型(特别是非GPT系列)在ARS各项任务中的适用性;开发专门针对LLM智能体的知识增强框架(而非仅依赖OpenAI API);研究更高效的智能体编排框架及消息传递机制。 4. 提示词工程:例如,探究示例(Few-shot)和明确步骤在提示词中的有效性;研究动态调整智能体心理特质(通过引导实现)的方法;开发标准的输出格式模式和度量输出符合度的方法。 5. 系统集成与安全:例如,研究ARS与传统系统的无缝集成,以及服务发现、互操作性等问题;加强ARS在伦理安全、抵御恶意提示词攻击等方面的研究。 6. 评估方法论:例如,建立更全面、统一的评估基准,超越准确性指标,纳入效率、成本、用户体验、鲁棒性等多维度评估。
本文档的价值与意义: 本研究作为首篇系统性刻画智能体化推荐系统的文献综述,具有重要的学术价值。它首次将这一新兴领域的研究现状进行结构化梳理,为研究者和从业者提供了一幅清晰的地图。综述不仅总结了当前的最佳实践(如通用框架、提示词模板、常用指标),更重要的是,它系统地揭示了领域的不足和未来的广阔探索空间。通过提出15个核心研究问题并逐一基于文献证据进行解答,本研究为后续研究建立了共同的问题语境和讨论基础。报告中所识别的研究空白,为从博士生到资深研究人员的广大群体指明了具有潜力的研究方向。此外,综述中对研究方法论的详细描述(包括PICO框架、检索策略、纳入排除标准)也为在软件工程和AI交叉领域进行类似的系统性文献综述提供了良好范例。这篇综述不仅是对智能体化推荐系统现状的总结,更是推动该领域迈向更成熟、更深入发展阶段的重要催化剂。