大型语言模型赋能的推荐与搜索智能体综述：迈向新一代信息检索

分享自：
大型语言模型赋能的推荐与搜索智能体综述：迈向新一代信息检索

期刊:ACM Trans. Inf. Syst.DOI:10.1145/nnnnnnn.nnnnnnn
本文档作者为来自中国清华大学与澳大利亚昆士兰大学的研究团队，主要作者包括Yu Zhang、Shutong Qiao、Jiaqi Zhang、Tzu-Heng Lin、Chen Gao和Yong Li。这篇题为《A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval》的论文预计将于2025年4月发表于期刊 ACM Transactions on Information Systems (ACM Trans. Inf. Syst.)。
这是一篇系统性的综述论文，其核心主题是全面审视和梳理大语言模型智能体（LLM Agents）在推荐系统（Recommender Systems）和搜索系统（Search Systems）——这两大信息检索（Information Retrieval, IR）核心领域——中的最新研究进展、应用范式与未来潜力，旨在为下一代信息检索系统的发展描绘蓝图。文章并非报告单一原创研究，而是对该新兴且快速发展的交叉领域进行首次系统的分类、总结与展望。
一、 论文的核心观点与论述结构
本文的核心论点在于：大语言模型智能体凭借其深度思考、任务分解、环境交互、信息整合以及用户模拟等超越传统模型的能力，为解决当前推荐与搜索系统面临的关键挑战提供了变革性的潜力，并正推动信息检索领域迈向一个全新的发展阶段。
为了系统地阐述这一观点，论文构建了一个清晰且全面的论述框架。首先，文章在引言部分强调了信息过载时代下，传统信息检索系统面临的挑战，以及LLMs及其智能体形式所展现出的通用理解、推理和决策能力，从而引出将两者结合的动机。接着，文章提供了必要的背景知识，分别介绍了推荐系统与搜索系统的核心组件（交互界面、用户/查询建模、物品建模、匹配/排序/重排序），以及LLMs和LLM智能体的发展历程与核心模块（感知模块、控制模块、行动模块）。在此基础上，论文深入分析了“为何LLM智能体适用于推荐与搜索”，提出了三个关键原因，为后续的分类讨论奠定了理论基础。
文章的主体部分，即对现有研究的分类梳理，是全文最核心的贡献。作者分别针对推荐和搜索领域，建立了新颖的分类学框架，并据此详细阐述了各类代表性工作。
（一） LLM智能体在推荐系统中的角色分类与应用
论文将LLM智能体在推荐任务中的角色归纳为四个主要领域，并分别列举了代表性研究工作：
用户交互（User Interaction）：在此角色下，LLM智能体作为用户与系统之间的中介，通过自然语言理解与生成能力，提供高度个性化的对话式推荐体验。传统推荐系统难以应对用户偏好快速变化、冷启动和长尾效应等问题，而对话式推荐也面临理解复杂语言、保持对话连贯性等挑战。LLM智能体能够分析用户偏好、历史行为和对话上下文，提供动态调整的推荐。例如，AutoConcierge框架利用LLM将用户问题转化为逻辑谓词，通过与知识库交互并动态生成询问来补全信息，最终提供自然语言推荐。ToolRec框架使用LLM作为用户替身来评估偏好匹配度，并调用外部排名和检索工具。RecAI工具包则让LLM智能体根据用户意图制定执行计划、调用工具并生成响应。RAH框架结合了推荐系统、智能助理和人类，通过“学习-行动-批判”循环的多个智能体协作来不断优化对用户个性的理解。这些工作共同表明，LLM智能体正将推荐系统从简单的信息提供者转变为智能的交互伙伴。
表示优化（Representation Optimization）：此角色关注利用LLM智能体来更好地理解和表示用户与物品，使推荐过程更加精准。传统基于静态数据的表示方法难以捕捉用户兴趣的动态变化和个性化差异。LLM智能体可以通过深度语义分析、多模态数据融合和外部知识，生成详细且动态更新的表示。例如，AgentCF将用户和物品都视为拥有记忆模块的智能体，通过一种协同学习方法和反思机制，让智能体根据真实交互记录调整记忆，以更准确地反映用户行为。KGLA框架将知识图谱中的路径信息转化为自然语言描述，以增强对用户偏好的理解，并动态更新用户记忆。Rec4AgentVerse框架则将物品本身转化为交互式、主动的LLM智能体，使其能通过多轮对话动态获取用户偏好并更新自身特征，从而实现更精准的个性化推荐。这类研究仍处于初期，但为赋予用户和物品表征更多主动性与情境感知能力开辟了新方向。
系统集成（System Integration）：在此角色中，LLM智能体充当推荐系统的“大脑”，帮助系统进行分析和决策，以实现更有效的结果。传统推荐系统多采用批处理架构，需要大量人工干预进行特征工程和模型更新。LLM智能体可以实时学习和动态调整推荐策略，支持即时反馈，并通过单智能体或多智能体协作框架来提升系统效率与智能化水平。单智能体工作如RecMind引入了自激励算法，利用历史路径信息优化决策规划；InterecAgent以LLM为核心处理指令理解和推理，将传统推荐模型作为工具，升级了系统的交互能力。多智能体协作框架如MACRS使用多个LLM智能体分别负责对话控制、响应生成、从反馈中学习等任务；MACRec则包含管理器、分析器、反思器、搜索器等专门化智能体，以协同方式解决多样的推荐任务。这些研究致力于利用LLM智能体的综合能力来超越传统推荐系统的局限。
环境模拟（Environment Simulation）：LLM智能体在此作为用户模拟器，为推荐系统构建仿真测试环境，通过模拟用户行为生成反馈数据，用于算法优化与评估，从而降低对真实用户数据的依赖和测试成本。多数研究集中在对话推荐场景中模拟用户行为，例如iEvaLM框架利用LLM用户模拟器来全面建模系统-用户交互场景，并评估推荐的可解释性；Agent4Rec从数据集中生成具有不同社会特征和偏好的大量LLM智能体，与推荐系统进行页面级交互，其反馈可用于迭代训练。此外，也有研究探索LLM智能体在强化学习环境构建（如Suber框架）甚至是对推荐系统的攻击（如CheatAgent）中的应用。这些工作展示了LLM智能体作为高效、可控的用户模拟器在推荐系统研发与评估中的广阔前景。
（二） LLM智能体在搜索系统中的角色分类与应用
论文将LLM智能体在搜索任务中的作用划分为五个领域，与典型的信息检索交互流程相对应：
任务分解器（Task Decomposers）：LLM智能体作为搜索引擎的主导界面，能够将复杂的用户任务分解为可管理的子任务，逐步收集和汇总信息。这对于处理如“假期去哪玩”这类开放式、多步骤的复杂搜索至关重要。例如，LASER方法将网页导航任务视为状态空间探索，让智能体分解任务以处理陌生场景；WebAgent能够将指令标准化分解为子指令并进行前瞻性规划；KnowAgent则利用行动知识库和知识驱动的自学习方法，在规划阶段引导行动路径。这些方法提升了智能体处理复杂搜索任务的能力。
查询重写器（Query Rewriters）：LLM智能体充当查询建模模块，擅长提炼和改写用户查询，使其更清晰、具体，从而提升搜索结果的准确性。它们允许用户输入更长的上下文来表达意图，并自主制定更有效的查询。例如，CoSearchAgent作为即时通讯平台的插件，能自主从用户对话中提取搜索意图并形成查询；有研究利用LLM增强的个性化自我对话（LAPS）来收集数据，训练偏好提取模型，使智能体能在搜索时考虑用户历史偏好。
行动执行器（Action Executors）：LLM智能体充当匹配和排序模块，可以代表用户与各种工具和API交互，以收集必要信息。关键在于让智能体学会选择并使用合适的工具。例如，EasyTool框架从大量工具文档中提取关键信息，设计统一的工具指令接口，降低LLM理解工具的认知负荷；CodeAct提出将智能体的行动统一到使用Python代码的可执行行动空间，通过集成Python解释器来动态执行和修订代码动作。
结果合成器（Results Synthesizers）：LLM智能体为传统搜索流程带来新能力，能够对大量的搜索结果进行总结、筛选和综合，帮助用户快速掌握要点。例如，PersonaRAG框架引入以用户为中心的智能体，基于实时用户偏好来选择检索内容和生成答案；ChatCite智能体模仿人类工作流程，从相关文献中提取关键要素并通过反思增量机制生成比较性摘要。
用户模拟器（User Simulators）：与推荐领域类似，LLM智能体可以作为用户模拟器，为搜索系统提供反馈，用于系统改进或评估，从而避免对真实用户进行A/B测试可能带来的体验干扰。例如，USimAgent能够模拟用户在搜索任务中的查询、点击和停止行为，生成完整的搜索会话；Bases框架可以大规模生成多样化的用户档案，从而模拟出不同的搜索行为。
（三） 具身LLM智能体：迈向下一代推荐与搜索
论文特别设立章节探讨了更具前瞻性的“具身LLM智能体”（Embodied LLM Agents）在信息检索领域的潜力。与主要分析静态用户-物品交互的LLM智能体不同，具身智能体能够主动感知并与环境（包括网络环境）进行交互。它们在网络环境中的应用（如网页导航）天然涉及复杂的信息检索过程。文章指出，具身智能体作为“终身学习者”、“通用问题解决者”和“个人助理”的潜力，使其有望解决传统推荐与搜索模型在动态环境适应性、跨领域泛化以及个性化、隐私化服务方面面临的挑战。例如，SmartAgent探索了“具身个性化学习”任务，提出了“用户思维链”推理范式，将用户反馈与智能体在图形用户界面上的行动对齐。尽管存在泛化能力不足、处理复杂个性化需求困难等技术瓶颈，但文章认为，具身智能体在可迁移推荐/搜索、轻量化端侧部署、隐私保护等方面开辟了富有希望的新研究方向。
（四） 开放问题与未来方向
论文在最后系统性地分析了该领域面临的挑战和重要的未来研究方向，包括：LLM固有的“幻觉”问题可能导致的错误信息检索；训练数据带来的偏见问题可能影响检索公平性；由多个LLM模块组成的智能体带来的高昂部署成本；发展能够整合文本、图像等多模态信息的智能体；在临床、法律等专业领域构建高效的领域特定智能体；探索多智能体协作以解决更复杂问题；以及利用LLM智能体的记忆和长上下文能力实现更深层次的个性化信息检索。
二、 论文的意义与价值
本论文作为首篇系统性综述和分类LLM智能体在推荐与搜索领域研究的文章，具有重要的学术价值和实践指导意义。其贡献主要体现在三个方面：首先，它开创性地梳理和整合了这个新兴且快速发展的交叉领域的研究成果，为后续研究者提供了清晰的脉络和入门指南。其次，它构建了一个逻辑严密、覆盖全面的分类学框架，通过解答“为何需要”以及“如何增强”这两个根本问题，有效地组织了现有工作，为该领域的知识体系化奠定了基础。最后，论文不仅总结了现状，还通过探讨具身智能体的前景以及系统分析当前存在的问题和未来方向，为后续研究提供了宝贵的灵感和指引，有望推动信息检索技术向更智能、更人性化的下一代演进。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问