基于大语言模型的可调式主动推荐代理:T-PRA框架研究
一、 研究团队与发表信息
本研究由来自中国科学技术大学的王明泽、高崇明(†)、王文杰(†)、冯福利以及来自中国北京网络科学研究院的李洋洋共同完成。论文题为《Tunable LLM-Based Proactive Recommendation Agent》(基于大语言模型的可调式主动推荐代理),发表于计算语言学领域的顶级会议“第63届计算语言学协会年会”(Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics)的长文第一卷,页码为19262-19276,会议于2025年7月27日至8月1日举行。该研究属于人工智能与信息检索交叉领域,具体聚焦于推荐系统方向。
二、 学术背景与研究动机
推荐系统是各类数字平台不可或缺的核心组件。然而,传统推荐方法通常旨在迎合用户已有的显性兴趣,长期如此会导致“信息茧房”(Filter Bubble)或“回音室”(Echo Chamber)效应,即推荐内容不断趋同,限制了用户兴趣的多样性,从长远来看损害了推荐生态系统的健康。与之相对,用户的潜在兴趣是广泛且可发展的。主动推荐系统(Proactive Recommendation Systems, PRS)正是为了应对这一挑战而提出的研究方向。其目标是通过多步骤的推荐策略,逐步引导和培养用户对某些“目标物品”(例如,用户尚未接触过但可能感兴趣的书籍、游戏等)的潜在兴趣,而非仅仅满足其现有偏好。这本质上是在“用户满意度”(推荐其当下喜欢的内容)和“兴趣探索”(推荐新内容以拓宽兴趣)之间寻求帕累托最优的平衡。
尽管已有一些研究尝试构建主动推荐系统,例如基于Transformer的IRS模型和利用大语言模型(LLM)提示工程的LLM-IPP方法,但它们仍存在显著局限:1)缺乏长期奖励优化:培养用户兴趣是一个长期过程,需要优化多步决策的累积回报,而现有方法(如LLM-IPP)缺乏对此的显式优化机制。2)灵活性不足:无法根据用户的实时反馈动态调整推荐策略,存在重复推荐不吸引人内容的风险。
基于此,本研究旨在开发一个有效的主动推荐系统,其核心目标有二:第一,系统应能灵活地根据实时用户反馈更新推荐策略;第二,系统应能优化其策略的长期整体奖励,即在成功引导用户兴趣转向目标物品的同时,最小化对用户体验的负面影响。为此,研究团队将主动推荐任务形式化为一个序列决策中的复杂路径规划问题,并充分利用大语言模型(LLM)所具备的丰富世界知识和复杂推理能力,提出了一个名为T-PRA的创新框架。
三、 研究详细工作流程
T-PRA框架的核心思想是构建一个基于LLM的智能体(Agent),并通过“智能体调优”(Agent-Tuning)方法对其进行优化,使其学会做出既能获得即时用户认可、又能实现长期兴趣引导的推荐决策。整个工作流程可分为两大核心组件:基于LLM的智能体框架和基于评判者的引导优化。
1. 基于LLM的智能体框架:执行者与顾问的双系统 该框架受“快思考与慢思考”范式启发,包含两个协同工作的LLM模块: * 顾问(Advisor)模块:扮演“慢思考”的战略家角色。在推荐过程的每一步(步骤n),顾问会接收当前用户交互历史、系统状态以及上一步推荐获得的即时奖励(用户反馈)。它综合这些信息,生成一个结构化的“思考”(Thought),用于分析用户兴趣的动态变化、评估当前策略效果,并为下一步推荐提供高层指导。例如,思考内容可能是:“用户对上一款推荐游戏‘荒野大镖客’表现出高偏好分,表明其对开放世界动作游戏感兴趣。为引导其走向目标游戏‘赛博朋克2077’,下一步应推荐具有近未来科幻元素的开放世界游戏。”这个思考文本将作为关键上下文传递给执行者。 * 执行者(Actor)模块:扮演“快思考”的执行者角色。它接收来自顾问的“思考”和当前状态,直接生成具体的推荐物品(Action)。由于LLM可能生成数据集中不存在的物品名称,框架引入了一个“物品接地”(Item Grounding)机制:使用LLaMA-3.1-8B模型为所有候选物品和LLM生成的物品名称计算文本嵌入向量,然后通过余弦相似度匹配,选择数据集中与生成名称最相似的物品作为最终推荐。
这个“顾问-执行者”架构实现了实时反馈的融入:顾问根据每一步的用户反馈(通过模拟环境获得)调整其战略思考,进而指导执行者调整后续推荐,从而满足了第一个核心目标——灵活性。
2. 基于评判者的引导优化:优化长期奖励 为了满足第二个核心目标——优化长期奖励,研究引入了第三个LLM模块:评判者(Critic)。评判者的作用是对执行者在特定状态下做出的推荐动作进行评估,预测其长期价值。具体流程如下: * 数据收集与模拟:首先,让未经调优的T-PRA智能体(初始化的执行者和顾问)在离线数据集(Steam游戏数据集和Amazon-Book数据集)上进行多轮推荐交互。用户反馈由一个预先训练好的模拟器(基于Transformer的下一物品推荐模型)提供,该模拟器能根据用户历史预测其对推荐物品的偏好概率,作为即时奖励的一部分。 * 奖励函数设计:为了全面评估推荐动作的优劣,研究者设计了三个奖励函数,由模拟环境计算并反馈给智能体: 1. 连贯性奖励(Coherence, rc):衡量相邻推荐物品之间的语义连贯性,通过计算它们嵌入向量之间的L2距离来实现。连贯的推荐路径有助于用户兴趣的自然过渡。 2. 目标距离奖励(Distance to Target, rt):衡量当前推荐是否使用户兴趣更接近目标物品。计算当前物品与目标物品的嵌入距离,并与上一步物品与目标物品的距离作差。差值为正则说明向目标靠近。 3. 用户接受度奖励(User Acceptance, ra):即模拟器给出的用户偏好概率,衡量当前推荐被用户喜欢的即时可能性。 最终的单步奖励是这三个奖励的加权和(rn = αrc + βrt + δra)。这三个奖励也通过提示词告知顾问,使其能在“思考”中进行权衡分析。 * 优势值计算与偏好数据集构建:在收集了大量(状态,动作,奖励,下一状态)序列数据后,评判者被用来评估每个状态的价值V(s)。然后,利用强化学习中的优势函数(Advantage Function)A(s, a) = r + γV(s’) - V(s)来计算每个动作的优势值。优势值量化了在状态s下选择动作a相对于平均水平的优劣。基于优势值,可以为每个状态构造出偏好对:优势值最高的动作被标记为“优选动作”,最低的标记为“非优选动作”。同样,对于顾问产生的“思考”,通过计算其引导下所有动作的平均优势值来评判优劣,从而构造“优选思考”和“非优选思考”对。 * 直接偏好优化(Direct Preference Optimization, DPO):利用构建好的(状态,优选输出,非优选输出)偏好数据集,研究者采用DPO算法分别对执行者LLM和顾问LLM进行微调。DPO的目标是使模型生成优选输出的概率最大化,同时降低生成非优选输出的概率。通过这种方式,智能体被直接训练以产生能获得更高长期优势(即更好平衡即时接受度、路径连贯性和目标导向性)的推荐和思考。 * 迭代优化:上述过程可以迭代进行:用调优后的智能体重新收集数据,训练更准确的评判者,再构建新的偏好数据集进行下一轮DPO调优。实验中对每个数据集进行了5个周期的训练。
四、 主要实验结果与分析
研究在Steam(游戏)和Amazon-Book(书籍)两个真实世界数据集上进行了广泛的实验,对比了T-PRA与多种基线方法,包括传统序列推荐模型(Caser, GRU4Rec, SASRec)、流行度推荐(Pop)、以及最新的主动推荐方法IRS和LLM-IPP(包括其思维链CoT和思维树ToT变种)。评估指标包括衡量兴趣提升的传统指标(兴趣增量IOI、排名增量IOR)、衡量用户接受度的准确率(Accuracy),以及由LLM评估的连贯性(Coherence)和接受度(Acceptance)。
1. 主实验对比(RQ1) 实验结果表明,T-PRA在两个数据集上的IOI和IOR指标均显著优于所有基线方法,平均比之前的最佳方法(SOTA)LLM-IPP提升了38%的有效性。这证明T-PRA在引导用户兴趣向目标物品转移方面非常成功。在用户接受度和连贯性指标上,T-PRA在Amazon-Book数据集上与SOTA表现相当,在Steam数据集上略低。作者分析这可能反映了“用户满意度”与“兴趣探索”之间的内在权衡:T-PRA为了更有效地拓宽用户兴趣(更高的IOI/IOR),有时需要推荐一些略微超出用户当前舒适区的物品,这可能暂时降低了即时接受度,但实现了长期的兴趣培养目标。一个关键的对照实验显示,即使使用与LLM-IPP相同的基座LLM(LLaMA-3.1-8B),T-PRA依然在所有指标上超越LLM-IPP,证明了其框架和调优方法的优越性,而非仅仅依赖更强大的基座模型。
2. 超参数影响分析(RQ2) * 训练周期:随着DPO调优周期增加,T-PRA的IOI和IOR持续上升,而用户接受度和连贯性保持稳定。这表明智能体通过迭代学习,能在不损害用户体验的前提下,越来越擅长进行兴趣引导。 * 生成温度:实验发现温度参数设为0.5时性能最佳。温度过高会导致动作随机性增加,虽然能产生更多样化的偏好对比数据,但也降低了生成动作的整体质量,反而损害了调优效果。 * 历史长度:当用户交互历史过长时,所有方法性能都会下降,因为久远的历史可能无法准确反映当前兴趣。但T-PRA在不同历史长度下均稳定优于LLM-IPP,且通过迭代学习能从初始较差的表现中大幅提升,凸显了其学习能力。
3. 目标配置与消融研究(RQ3 & RQ4) * 奖励函数组合:消融实验表明,单独使用任何一个奖励函数(只优化连贯性、只优化目标接近度或只优化用户接受度)都无法达到最佳效果。三者结合才能协同优化,实现长期奖励的最大化。例如,仅优化用户接受度(ra)确实能获得最高的即时接受率,但兴趣引导效果(IOI/IOR)却不如三者结合。 * 目标物品分布:当目标物品与用户历史兴趣高度相关(前10%)时,兴趣提升空间有限,但用户接受度最高。当目标物品与用户历史兴趣差异很大(后10%)时,T-PRA展现出了最强的兴趣引导能力(IOI/IOR最高)。在所有分布情况下,T-PRA均优于LLM-IPP。 * 框架组件消融:移除顾问模块或评判者模块都会导致性能显著下降。特别是,没有顾问的版本在迭代学习后性能不升反降,说明顾问的战略性思考对于智能体的有效学习至关重要。没有评判者的版本则因无法准确评估长期价值,导致兴趣引导效果大幅减弱。这证实了T-PRA中双系统架构和基于评判者的优化机制都是不可或缺的。
五、 研究结论与价值
本研究成功提出了T-PRA,一个基于大语言模型的可调式主动推荐代理框架。该框架通过“执行者-顾问”双系统设计,实现了根据实时用户反馈灵活调整推荐策略;同时,通过引入“评判者”和基于DPO的智能体调优方法,结合精心设计的连贯性、目标距离和用户接受度三重奖励函数,使系统能够优化长期的整体推荐收益。实验在两个大型真实数据集上验证了T-PRA的卓越性能,其在有效培养用户对特定目标物品的潜在兴趣方面,平均比现有最佳方法提升了38%。
该研究的价值主要体现在: * 科学价值:为推荐系统研究提供了一个新颖的、将LLM作为智能体进行序列决策与优化的完整框架。它将主动推荐形式化为一个强化学习问题,并创新性地将DPO这种对齐技术应用于智能体的策略优化,为LLM在交互式、长期收益任务中的应用开辟了新思路。 * 应用价值:为解决推荐系统中的“信息茧房”问题提供了切实可行的技术方案。T-PRA能够帮助内容平台在保持用户满意度的同时,主动、渐进地拓宽用户的兴趣视野,提升内容分发的多样性和生态健康,对于视频、音乐、电商、新闻等领域的推荐系统具有重要的实践意义。
六、 研究亮点
七、 其他有价值内容
研究还讨论了T-PRA的局限性及未来方向:1)当前方法需要在每一步生成多个动作进行比较以构建偏好对,计算成本较高,未来可探索更高效的智能体调优方法;2)主动推荐系统可能面临评估指标偏差、奖励函数配置偏差等问题,未来可采用在线评估和逆强化学习来缓解;3)该框架可扩展至个性化内容生成等其他需要优化长期用户满意度的任务中。论文附录提供了详细的提示词设计、额外实验结果和一个生动的案例研究,展示了T-PRA如何一步步分析用户历史、结合反馈、调整策略,最终成功将用户兴趣引导至目标游戏《欧洲卡车模拟器》的过程,直观体现了其工作机理。