SimUser：利用大语言模型模拟用户行为以进行推荐系统评估

分享自：
SimUser：利用大语言模型模拟用户行为以进行推荐系统评估

期刊:proceedings of the 63rd annual meeting of the association for computational linguistics (volume 6: industry track)
关于《SimUser：利用大语言模型模拟用户行为进行推荐系统评估》的学术研究报告
本文《SimUser: Simulating User Behavior with Large Language Models for Recommender System Evaluation》于2025年7月28日至30日，发表在Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 6: Industry Track)上。该研究的主要作者是Nicolas Bougie和Narimasa Watanabe，其所属机构为Woven by Toyota。
一、 学术背景 本研究属于人工智能（AI）与信息检索（IR）交叉领域，具体聚焦于推荐系统（Recommender System, RS）的评估方法论。推荐系统在现代数字生活中扮演着核心角色，但其性能评估长期面临重大挑战。传统的离线评估（offline evaluation）指标（如NDCG、准确率）与系统上线后的真实用户在线行为（online behavior）之间存在显著鸿沟，导致离线表现优异的模型在实际部署中可能无法达到预期效果。而在线A/B测试虽然能反映真实用户反馈，但成本高昂、扩展性差，且涉及用户隐私和伦理问题。因此，开发一种既可靠又经济的交互式评估方法，是推动推荐系统领域发展的关键需求。
近年来，大语言模型（Large Language Model, LLM）在模拟人类行为方面展现出巨大潜力，催生了基于LLM的自主智能体（agent）研究。已有一些工作探索了将LLM用作推荐系统本身或用户模拟器，但普遍存在局限：它们通常孤立地依赖模型内部知识，忽略了外部知识（如用户-物品关系图）和用户画像（persona）的整合，也未能充分考虑视觉信号（如图像缩略图）对用户决策的影响。
基于此，本研究旨在解决现有LLM用户模拟方法的不足，提出一个名为SimUser的智能体框架，目标是构建可信且具成本效益的“人类代理”。SimUser的核心目标是通过模拟更贴近真实人类的用户行为，为推荐系统提供一种高效的离线交互式评估手段，从而弥合离线指标与在线业务指标（如用户参与度、满意度）之间的差距。
二、 研究详细工作流程 SimUser框架包含两个主要阶段，其工作流程设计精密，旨在从历史数据中构建具有一致性的虚拟用户，并模拟其与推荐系统的复杂交互。
第一阶段：基于一致性检查的用户画像匹配（Persona Matching via Consistency Check） 此阶段的目标是从用户的历史交互数据中，推断并为其匹配一个最合理的、内在一致的“用户画像”。用户画像（persona）包含年龄、职业以及基于“大五”人格模型（开放性、尽责性、外向性、宜人性、神经质）的人格特质等特征。 1. 画像提取：对于一个给定用户，研究首先从其历史交互记录（如观看/评分过的物品）中随机选取50个项目。根据评分（如≥4为喜欢，≤2为不喜欢）进行分类，并利用LLM生成一份关于用户偏好的简短摘要（summary）。随后，结合该摘要和历史数据，提示LLM为该用户生成一组（M=5个）候选画像，这些画像从预定义的年龄、人格、职业列表中组合而成。 2. 自洽性评估：为了从候选画像中选出最匹配的一个，研究设计了一种自洽性评分机制。其核心思想是：一个真正匹配用户的画像，应该能够最好地区分该用户的历史交互与其他用户的交互。具体而言，对于目标用户u，从其历史中采样ϱ个交互子集ι，同时从其他用户中采样ϱ个交互子集ῑ。然后，让LLM基于每个候选画像p，分别对ι和ῑ中的交互进行评分（即预测用户对该物品的喜好程度）。评分函数S(p, u)定义为LLM对用户自身交互子集的平均评分与对其他用户交互子集的平均评分之差。得分最高的候选画像将被最终分配给该用户。这一过程确保了所构建的画像能够内在一致地解释用户的过往行为。
第二阶段：与推荐系统进行交互（Engaging in Interactions with RS） 在获得用户画像后，SimUser构建一个基于LLM的认知架构来模拟用户行为。该架构包含四个核心模块： 1. 画像模块：作为智能体的基础，它整合了第一阶段匹配的画像p，以及从历史数据中提取的额外属性：挑剔程度（基于用户平均评分）、习惯（包括参与度、从众性、多样性）以及独特品味（来自第一阶段生成的偏好摘要）。这为智能体提供了丰富的初始背景。 2. 感知模块：为了模拟视觉刺激对决策的影响，该模块将物品的视觉信息（如电影海报缩略图）纳入推理过程。研究采用了一种高效的方法：使用GPT-4V等视觉语言模型为物品缩略图生成描述性标题（caption），这些标题捕捉图像的情感基调、视觉细节和独特卖点。这些标题随后被融入决策提示中，使智能体能进行多模态推理。 3. 记忆模块：这是SimUser的创新关键，由两部分组成： * 情景记忆：存储用户与推荐系统的交互历史。采用“自问检索”策略，即LLM根据当前查询生成后续问题，与原始查询一同进行向量相似性搜索，以检索更多样化的相关证据。 * 知识图谱记忆：为了模拟外部社会影响和物品间关系，研究构建了一个知识图谱（Knowledge Graph, KG），其中节点代表用户和物品等实体，边代表关系（如“喜欢”）。该图谱使用真实数据集初始化，并随着交互动态更新。在检索时，研究扩展了PathSim算法，提出一种图感知动态物品检索方法。该方法不仅计算基于路径的物品-物品相似度，还结合了用户-物品相似度，从而检索出既与当前查询物品相关，又符合用户历史偏好的物品及其元数据（如评分、关系路径）。 4. 大脑模块：这是智能体的决策中心，负责将感知、记忆和画像信息转化为具体行动。它通过思维链（Chain-of-Thought）提示，模拟人类序列化推理，包含五个步骤： * 多轮偏好启发：智能体逐页浏览推荐物品，决定“观看”或“跳过”。为了克服LLM固有的积极偏见，引入了基于用户历史评分的“挑剔度”调节器。决策过程是多轮的：先基于画像、挑剔度、从记忆模块检索的证据形成初始决定；然后检查该决定是否与画像矛盾或证据不足；如有问题，则通过扩展检索证据（k1, k2增加Δk）并重新推理来迭代优化决策，直至达成最终决定。 * 物品评估：对选中的物品，智能体不仅给出1-5的显式评分，还会生成主观感受（如“这部电影让我感到紧张又兴奋”）。特别地，评分生成过程会利用从KG记忆中检索到的关系路径（如“用户A -> 喜欢 -> 电影X -> 由 -> 导演Y -> 执导 -> 电影Z”）作为推理依据，解释画像、证据和路径如何影响其评分。 * 行动选择：基于物品评估和交互历史，智能体决定下一步行动：[退出]系统、浏览[下一页]/[上一页]或[点击]物品查看详情。这个决策考虑了其对之前推荐的满意度、疲劳程度和当前情绪状态。 * 因果行动细化：为了解决次优决策（如过早退出），引入了一个因果推理步骤。智能体会生成反事实问题（例如，“如果我现在退出会发生什么？”）来验证 tentative action 的合理性，并估计不同选择的结果，最终根据因果一致性调整最终行动。 * 交互后反思：每次交互后，智能体会进行反思，从交互中学习，提取见解，并引用具体记录作为证据。这些反思会被反馈到情景记忆中，用于更新和优化未来的认知与行为。
三、 主要研究结果 研究在多个公开数据集（MovieLens, AmazonBook, Steam）和一个专有食品推荐数据集上进行了全面实验，验证了SimUser的有效性。
合成用户的真实性与偏好对齐：实验要求智能体判断一组物品中哪些是其对应真实用户曾交互过的（二分类任务）。如表1所示，在不同干扰物品比例（1:1, 1:3, 1:9）下，SimUser在准确率、精确率、召回率和F1分数上均显著优于基线方法RecAgent和Agent4Rec。这表明SimUser构建的智能体能更准确地理解并代表其对应人类的偏好。
评分预测性能：在预测用户对未评分物品的评分任务中（表2），SimUser (sim·persona)版本取得了最佳的RMSE和MAE，显著超越了传统方法（如矩阵分解MF）和其他LLM智能体方法。特别值得注意的是，带有知识图谱记忆的SimUser版本性能明显优于不带KG的版本（表8），证明了利用外部关系知识对于准确模拟用户评分至关重要。此外，让智能体先与推荐系统进行一些模拟交互（SimUser(sim)）再执行任务，其表现优于零样本直接预测（SimUser(zero)），说明基于交互的“接地气”过程能帮助智能体细化其对未评分物品的偏好。
推荐系统策略评估：研究使用SimUser模拟用户来评估不同推荐算法（随机推荐、热门推荐、矩阵分解MF、LightGCN等）的性能。如表3所示，SimUser模拟出的用户对先进算法（如LightGCN）表现出更高的观看比例、喜欢数量和满意度评分，而对随机或热门推荐则兴趣较低。这一趋势与真实世界中用户对高质量推荐的积极反应一致，证明了SimUser能够有效区分不同推荐策略的优劣。
人类相似度评估：采用GPT-4o作为评估器，判断智能体交互记录是否像人类生成。如表4所示，SimUser获得的人类相似度评分显著高于基线方法。消融实验（表11）进一步表明，感知模块（整合视觉信息）和画像模块是提升真实感的关键因素。而基线方法Agent4Rec因过早退出系统和对相似物品评分不一致等问题，更容易被识别为AI。
离线A/B测试验证：在一个包含55次在线A/B测试的专有数据集上，研究将SimUser的离线评估结果（如平均访问页面数）与真实的在线业务指标进行对比。如图1所示，SimUser预测的指标与真实指标之间的斯皮尔曼相关系数最高，显著优于其他基线。这表明SimUser能够有效捕捉用户参与度，可作为在线A/B测试的高效、低成本替代方案。
利用SimUser优化推荐系统：研究进一步探索了基于SimUser评估结果来优化推荐系统参数的可能性。如表5所示，使用传统离线指标（NDCG@10）选择的参数，其在线业务表现与原始基线相差无几，印证了离线指标与业务指标脱节的问题。而基于SimUser评估选择的参数，在真实的在线测试中带来了用户观看比例、喜欢比例和满意度的全面提升，成功将离线评估与在线业务价值联系起来。
深入洞察实验：研究还利用SimUser框架进行了多项有价值的探索性实验：
缩略图质量效应：通过比较原始海报、随机视频截图和失真海报三种缩略图，发现高质量海报能显著提高用户的点击意愿（图10），模拟出了现实中视觉刺激对决策的影响。
曝光效应：当推荐系统持续偏重推荐某两类电影（如动作片和恐怖片）时，SimUser模拟的用户对这些类别的平均评分会随时间推移而升高，而对其他类别的评分则相对降低（图11），成功复现了心理学中的“曝光效应”。
用户评论影响：实验发现，展示负面评论会显著降低用户的观看和喜欢比例，而展示评论数量或正面评论的影响则相对较小（表6），这与人类决策受负面信息影响更大的现象相符。
四、 结论与研究价值 本研究提出了SimUser，一个利用大语言模型构建可信用户代理以进行推荐系统评估的创新框架。通过两阶段方法——自洽画像匹配和基于多模块认知架构的交互模拟——SimUser成功生成了在微观（个体偏好、评分）和宏观（群体行为分布、对系统策略的反应）层面都与真实人类行为高度对齐的合成用户。
其科学价值在于：为解决推荐系统评估中离线与在线指标脱节这一长期挑战，提供了一种基于LLM智能体的、可交互的、可解释的新方法论。它证明了通过精心设计的认知架构（整合画像、多模态感知、双重记忆和因果推理），可以显著提升AI代理模拟复杂人类决策过程（如受视觉、记忆、社会关系影响的推荐交互）的真实性和一致性。
其应用价值尤为突出：SimUser为推荐系统的研发和迭代提供了一个强大、灵活且低成本的仿真测试平台。开发者可以在产品上线前，利用SimUser模拟的海量多样化用户，快速评估不同推荐算法、界面设计（如缩略图、评论展示）、业务策略的效果，预测其对关键业务指标（如参与度、满意度）的影响，从而优化系统参数，降低直接进行在线A/B测试的成本和风险。
五、 研究亮点 1. 全面的认知架构：SimUser超越了以往仅依赖文本或简单记忆的工作，构建了一个包含画像、感知（视觉）、记忆（情景+知识图谱）、大脑（多轮推理+因果细化） 的完整认知模块体系，极大地增强了智能体行为的复杂性和真实性。 2. 自洽的画像构建：提出的自洽性评分机制，通过让LLM区分“自己的历史”与“他人的历史”来筛选最匹配的画像，是一种新颖且有效的无监督画像构建方法，减少了对标注数据的依赖。 3. 知识图谱增强的记忆与推理：创新性地将知识图谱作为外部记忆，并设计了图感知的动态检索方法，使智能体能够利用用户-物品-物品间的复杂关系网络进行推理，有效缓解了LLM的幻觉问题，并提升了评分预测和偏好理解的准确性（图9）。 4. 从模拟到实用的闭环：研究不仅验证了模拟行为的真实性，更进一步证明了基于SimUser的离线评估结果能够有效指导推荐系统参数调优，并在真实在线环境中带来显著的业务指标提升，实现了从仿真评估到实际应用的价值闭环。 5. 丰富的探索性分析：利用SimUser框架，研究深入探讨了缩略图质量、曝光效应、评论影响等影响用户行为的潜在因素，展示了该框架作为“计算显微镜”用于用户行为研究和机制洞察的潜力。
六、 其他有价值内容 论文还包含了详尽的实验设置、伪代码、框架示意图以及广泛的消融实验和分析。这些内容证实了各模块（如KG记忆、感知模块、画像模块）的有效性（表8，表11），探讨了不同基础LLM模型的影响（表10），分析了交互历史长度对性能的影响（图12），并展示了智能体能够生成有价值的、基于画像的交互后访谈解释（图8），为系统改进提供了可操作的洞见。同时，论文也坦诚讨论了方法的局限性（如对历史数据的依赖、可能复现LLM中的社会偏见、未能完全模拟复杂的用户体验等），并提出了未来的改进方向，体现了研究的严谨性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问