基于大语言模型的推荐系统用户模拟器

分享自：
基于大语言模型的推荐系统用户模拟器

期刊:Association for the Advancement of Artificial Intelligence
这篇文档是一篇发表于第三十九届AAAI人工智能会议（AAAI-25）的学术论文。其作者团队包括张子健、刘书畅、刘子如、钟睿、蔡庆鹏、赵翔宇、张春雨和刘启东。他们分别来自吉林大学、快手技术、香港城市大学和西安交通大学。该研究的标题是“LLM-Powered User Simulator for Recommender System”，旨在提出一种利用大型语言模型（LLM）来模拟用户行为，以训练和优化基于强化学习（RL）的推荐系统的新型用户模拟器。
研究背景 在推荐系统领域，基于强化学习的方法因其能捕捉用户偏好和促进长期用户参与而日益重要。然而，这类方法的训练需要与用户环境进行大量交互，而获取真实的在线用户交互数据存在成本高昂、耗时长以及涉及用户隐私等难题。用户模拟器作为一种解决方案，可以快速生成大量的模拟用户行为数据，为推荐系统算法的开发和评估提供一个可控、高效的测试平台。
然而，现有的用户模拟器普遍存在显著局限。首先，这些模拟器通常采用“黑盒”模型（如生成对抗网络GAN或Transformer）来模拟用户响应，其用户偏好建模过程不透明，缺乏可解释性。其次，缺乏一个有效的评估框架来衡量模拟行为的真实性（即保真度）。近年来，大型语言模型在语义理解和推理方面展现出强大能力，为构建更智能、更透明的用户模拟器提供了可能。然而，直接将LLM用作模拟器存在计算成本高、推理时间长以及可能产生“幻觉”等问题，难以满足推荐系统训练所需的实时性和可靠性。
因此，本研究旨在解决现有用户模拟器的痛点，目标是开发一种能够显式地、可解释地模拟用户与物品交互逻辑的模拟器。其核心思路是利用LLM的强大知识库和分析能力来解构用户偏好，并将其与传统的统计模型相结合，构建一个集成的、高效的、高保真的用户模拟器，从而加速基于强化学习的推荐系统的迭代和优化。
详细工作流程 本研究的工作流程主要包含以下几个核心步骤：1. 物品信息分析与关键词提取；2. 逻辑模型构建；3. 统计模型集成；4. 集成模拟器与环境构建。
1. 物品信息分析与关键词提取 为了显式地建模用户偏好，研究首先对物品进行深度分析，生成结构化的描述信息。这一过程分为客观描述和主观描述收集两个部分。 * 客观描述收集 (Objective Item Description Collection)： 目标是理解“物品是什么”。研究利用LLM分析物品的固有属性（如名称、类别、特征）。为此，研究者设计了一个提示模板（Prompt Template），要求LLM从一个“消费者角度”列举物品可能被喜欢或被讨厌的潜在原因（Pros and Cons），并为每个原因提供对应的证据（Evidence）和关键词（Keywords）。例如，对于一部电影，LLM可能会输出“优点1：引人入胜的故事情节；证据：基于其惊悚剧情；关键词：剧情、悬疑”。为了避免LLM的“幻觉”，研究采用了思维链（Chain of Thoughts, CoT）技术，引导LLM先识别原因，再总结关键词，最后用给定信息提供证据，从而增强输出的可靠性。从LLM的响应中，可以提取出物品的类别信息（D_cate）、正面原因关键词集合（D_obj_pos）和负面原因关键词集合（D_obj_neg）。 * 主观描述收集 (Subjective Item Description Collection)： 目标是理解“用户如何看待该物品”，即考虑大众意见的影响。研究利用用户的历史评分和评论文本。针对每一条用户历史交互记录（包含评分和评论），研究者设计了另一个提示模板，要求LLM根据该用户的评分（正面或负面）和评论内容，结合物品的客观信息，生成该用户给出此评分的具体原因、关键词和证据。例如，对于一条正面的电影评论，LLM可能生成“优点1：出色的角色塑造；关键词：角色、演技”。从这些输出中，可以提取出代表该次交互中用户喜好或厌恶原因的关键词集合（D_sub_pos 和 D_sub_neg）。 最终，将客观和主观来源的关键词合并，形成一个综合的正面原因关键词集（D_pos）和负面原因关键词集（D_neg）。这些关键词经过过滤（去除过于常见或稀有的词），成为后续逻辑推理的基础。这一步利用LLM离线处理所有物品和历史交互数据，生成结构化的知识库，避免了在后续模拟交互时实时调用LLM所带来的高昂计算开销。
2. 逻辑模型构建 (Logical Model) 基于上述提取的结构化信息，研究提出了两种显式的逻辑模型来模拟用户的决策过程。该过程模拟了图1所示的用户逻辑：用户在面对一个候选物品（i_c）时，会将其特征与自己的历史喜好（I_pos）和厌恶（I_neg）进行比较。 * 关键词匹配模型 (Keywords Matching Model, f_mat)： 该模型直接基于文本关键词的匹配度进行决策。首先，从用户历史交互（H）中筛选出与候选物品同类别（D_cate相同）的物品子集（H_c），并进一步划分为历史喜欢物品集（I_pos）和历史不喜欢物品集（I_neg）。随后，计算候选物品的正面/负面关键词集（D_i_c_pos / D_i_c_neg）与历史喜欢/不喜欢物品集中每个物品的对应关键词集之间的交集大小。通过求和（公式1，2），得到两个匹配度分数 α_pos 和 α_neg，分别表示候选物品与用户历史喜欢/不喜欢倾向的匹配程度。最后，通过比较 α_pos 和 α_neg 的大小来决定模拟用户的互动行为（喜欢“1”或不喜欢“0”）（公式3）。 * 相似度计算模型 (Similarity Calculation Model, f_sim)： 该模型在语义层面进行更精细的比较。首先，使用BERT模型将每个物品的正面/负面关键词集（D_pos / D_neg）编码为语义向量（e_pos / e_neg）。然后，计算候选物品的正面/负面语义向量与历史喜欢/不喜欢物品集中每个物品对应语义向量之间的余弦相似度，并取最大值（公式6，7），得到两个相似度分数 β_pos 和 β_neg。同样，通过比较 β_pos 和 β_neg 来决定最终的模拟互动（公式8）。 这两种逻辑模型共同的特点是透明和可解释，因为决策是基于具体的、可理解的关键词或语义相似度做出的，而非黑盒模型的隐式表示。
3. 统计模型集成 (Statistic Model) 为了增强模拟的可靠性并捕捉逻辑模型可能忽略的复杂模式，研究引入了一个基于深度学习的统计模型作为补充。具体采用SASRec（一种基于自注意力的序列推荐模型）作为统计模型（f_sta）。该模型在用户的历史交互序列数据上进行预训练，学习用户行为的统计规律。在模拟阶段，加载预训练好的模型参数，直接根据用户历史（H）和候选物品（i_c）来预测用户的互动概率。统计模型的优势在于能够从大量数据中学习到更深层次的、非显式的用户偏好关联。
4. 集成模拟器与环境构建 (Ensemble User Simulator & MDP Formulation) 最终的模拟器是一个集成模型。它将上述两个逻辑模型（f_mat, f_sim）和一个统计模型（f_sta）的输出进行集成。每个基础模型对候选物品会输出一个二元决策（0或1）。集成规则采用“多数投票”原则：当三个模型中有两个或以上输出“1”（喜欢）时，则最终模拟用户给出正面互动；否则给出负面互动（公式9）。这种集成策略结合了逻辑推理的可解释性和统计学习的稳健性。 为了验证该模拟器的有效性，研究者将其构建为一个强化学习训练环境。他们将推荐系统视为智能体（Agent），将用户模拟器视为环境（Environment）。系统的状态（State）包括用户画像和历史交互；动作（Action）是推荐一个物品；状态转移概率（Transition）由环境决定；奖励（Reward）则由集成模拟器的输出（喜欢=1，不喜欢=0）直接定义。这样，强化学习算法（如DQN, PPO）就可以在这个模拟环境中进行交互式训练。
主要实验结果 研究在五个公开数据集（Yelp， Amazon Music， Amazon Games， Amazon Movie, Anime）上进行了广泛的实验，涵盖了兴趣点（POI）、音乐、电影、游戏和动漫等不同推荐场景，以验证模拟器的通用性和稳定性。 * 整体性能（表2）： 研究使用四种经典的强化学习算法（A2C, DQN, PPO, TRPO）在提出的用户模拟器环境中进行训练，并评估其性能。评估指标包括平均奖励（Average Reward）、总奖励（Total Reward）和Top-10推荐中的喜欢物品比例（Liking%）。实验结果表明，在所有五个数据集上，DQN算法的表现普遍优于其他算法，这归因于其处理离散动作空间的优势。更重要的是，所有算法在模拟器中都表现出了良好的且一致的性能，这表明该用户模拟器提供了一个稳定、可靠的训练环境，能够模拟出具有一致性的用户行为模式，这对于公平地评估不同算法至关重要。 * 案例研究（表3，4）： 论文通过一个Yelp数据集上的具体案例，详细展示了模拟器的内部推理过程。表中列出了用户的历史互动物品（包括喜欢和不喜欢）及其提取出的正/负面关键词，以及RL算法（DQN）推荐的候选物品。表4则显示了对于每个推荐物品，三个基础模型（f_mat， f_sim， f_sta）的推理结果和最终的集成奖励。例如，对于推荐物品“IHOP”，其负面关键词“嘈杂、拥挤”与一个历史不喜欢物品“Popeyes Kitchen”的负面关键词“嘈杂”匹配，因此f_mat输出0（不喜欢）。相似度模型f_sim也输出0。尽管统计模型f_sta输出1，但根据多数投票原则，最终模拟用户给出了负面反馈（奖励=0）。这个案例生动地说明了逻辑模型的透明决策过程和集成机制的工作方式。 * 与其他模拟器的比较（表5，6）： 研究从特性（是否使用真实数据、模拟引擎类型、评估方式）和性能两个方面与现有的主流用户模拟器（如RecSim, VirtualTaobao, KuaiSim, Suber, Agent4Rec）进行了比较。提出的模拟器在特性上结合了LLM的逻辑推理和统计模型，并使用真实数据进行离线评估和案例分析。在量化性能对比（表6）中，与同样使用LLM的Suber和使用Transformer的KuaiSim相比，本研究所提出的模拟器在平均奖励、总奖励和AUC指标上均取得了最优效果，同时推理时间（0.76秒）远低于Suber（2.42秒），与KuaiSim（0.53秒）处于同一量级，证明了其在精度和效率上的优越性。
研究结论与价值 本研究成功提出了一种新颖的、由LLM驱动的、用于基于强化学习的推荐系统的用户模拟器。其核心贡献在于解决了现有模拟器在用户偏好建模不透明和模拟准确性评估困难两大问题。通过设计一种显式的用户互动逻辑，并利用LLM对物品和用户评论进行深度分析以提取可解释的关键词，研究构建了透明化的逻辑模型。进而，通过集成逻辑模型与传统统计模型（SASRec），形成了一个兼顾可解释性与稳健性的强大模拟器。 该研究的科学价值在于为推荐系统研究提供了一种新的、更贴近人类决策过程的用户建模方法论。它将LLM的语义理解能力与传统推荐模型的统计学习能力创造性结合，开辟了构建高保真、可解释模拟环境的新路径。其应用价值则直接体现在为强化学习推荐算法的开发和测试提供了一个高效、低成本、高保真且无需担心隐私问题的训练平台，能显著加速推荐算法的迭代优化过程。论文也指出了当前模拟器仅模拟“喜欢/不喜欢”二元互动的局限性，并计划在未来工作中引入更多样的交互信号（如停留时长、评分、留存率）以丰富模拟器的应用场景。
研究亮点 1. 显式且可解释的用户偏好建模： 首次明确提出了用户与推荐物品互动的显式逻辑框架（“是什么”和“怎么样”），并利用LLM将这一逻辑转化为结构化的关键词表示，使得模拟器的决策过程变得透明、可追溯。 2. 创新性的集成架构： 提出了一个新颖的集成模型，巧妙地将基于LLM分析的逻辑模型与基于数据驱动的统计模型相结合。这种结合不仅提高了模拟的准确性和鲁棒性，还通过离线使用LLM分析、在线使用轻量级逻辑/统计推理的方式，有效规避了直接使用LLM作为模拟器带来的高计算成本和“幻觉”风险。 3. 全面而严谨的验证： 研究在五个不同领域的公开数据集上进行了广泛的量化与定性实验，不仅验证了模拟器在不同推荐场景下的有效性和稳定性，还通过详细的案例分析和与当前最先进模拟器的对比，充分证明了其优越性。 4. 为RL推荐系统提供高质量的仿真环境： 该模拟器生成的交互数据质量高，能够支持多种主流强化学习算法进行稳定、有效的训练，为解决推荐系统中在线交互数据获取难的问题提供了实用的工程解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问