基于生成式内在动机优化多轮交互式推荐代理

分享自：
基于生成式内在动机优化多轮交互式推荐代理

软件工程
计算机科学
人工智能
工程学
信息科学
期刊:Proceedings of the ACM Web Conference 2026 (WWW '26)DOI:10.1145/3774904.3792209
【点击此处】阅读全文、收藏及针对性提问
关于《通过生成式内在动机优化多轮交互式推荐代理》的学术研究报告
本文向您介绍一项发表于ACM Web Conference 2026（WWW ‘26）的研究工作，题为《Optimizing Multi-Turn Interactive Recommendation Agents via Generative Intrinsic Motivation》。该研究由来自中国人民大学高瓴人工智能学院的冯雪阳（Xueyang Feng）、唐佳锴（Jiakai Tang）、陈旭（Xu Chen，通讯作者）以及华为技术的戴权宇（Quanyu Dai，通讯作者）、董振华（Zhenhua Dong）共同完成。这项研究旨在解决大型语言模型驱动的交互式推荐代理在训练过程中面临的核心挑战，并提出了一种名为GIMO的创新优化范式。
一、 研究背景与动机
本研究的科学领域主要集中于信息检索与推荐系统，并深度融合了强化学习与大语言模型技术。传统推荐系统通常以被动预测的方式运作，难以主动建模用户兴趣或引导用户需求。随着大语言模型的崛起，研究者开始探索基于LLM的交互式推荐代理，它们能够通过主动澄清、工具调用和动态对话，将推荐系统转变为交互式、主动智能的形态。
然而，使用智能体强化学习来训练这类IRA面临三大关键挑战： 1. 信用分配问题：在多轮稀疏奖励环境中，如何将最终的成功或失败奖励准确归因到每一轮具体的交互上，同时保持全局策略的一致性。 2. 大动作空间的探索难题：IRA的动作空间由自然语言构成，极其庞大且复杂，导致探索效率低下，代理需要尝试大量次优策略才能获得高质量样本。 3. 多技能协同学习问题：将多种交互技能（如提问、检索、回复）整合在一个策略中联合训练时，容易导致策略偏向于某一特定能力，引发全局策略协调的不稳定甚至崩溃。
现有方法，如提示工程和监督微调，存在局限性：提示工程受限于基础LLM的能力且推理成本高；SFT缺乏通过环境交互进行探索和改进的机制，也无法捕捉细粒度的奖励信号。因此，本研究旨在提出一种新的训练范式，系统性地解决上述挑战。
二、 研究理论与方法流程
本研究提出了一个名为GIMO的全新优化框架，其核心思想是从心理学中的自我决定理论汲取灵感，将IRA的交互与学习过程视为对三种内在驱动力——自主性、能力感和关联性——的持续满足与激发。GIMO不再仅仅依赖外部奖励，而是通过生成式的方式构建内在奖励，从而驱动代理学习。整个框架包含四个协调的阶段，具体流程如下：
第一阶段：数据采样与SFT冷启动 由于较小规模的LLM（如实验中使用的Llama-3.1-8B）直接生成高质量交互轨迹的能力有限，本研究首先设计了一个冷启动过程。研究者使用一个专有的、基于强大LLM的IRA与环境交互，生成多轮对话轨迹。随后，根据轨迹是否最终成功推荐了目标物品进行筛选，得到高质量的训练数据集 ( D{sft} )。在此数据集上，对候选IRA模型 ( \pi\theta ) 进行监督微调，得到初始策略 ( \pi_{sft} )。这一阶段的优化目标是最小化负对数似然损失，使模型学习专家级的全局策略编排模式，为后续的强化学习提供一个高质量的起点，并有效缩小探索空间。
第二阶段：生成式潜力估计 SFT阶段缺乏对回合级信号的学习。为了解决信用分配问题，GIMO引入了生成式潜力函数来形式化内在动机。传统方法使用基于规则的距离度量来定义状态潜力，但难以捕捉交互推荐中的高级语义关系。GIMO的创新之处在于利用LLM的错误归因能力，以生成式的方法估计潜力。 具体操作是：对于轨迹中的每一个交互轮次 ( t )，给定当前状态 ( s_t )、采取的动作 ( (a_t, pt) )、产生的下一状态 ( s{t+1} ) 以及最终的目标物品 ( iE )，研究者构建了一个指令集 ( I{gpe} )（针对不同的动作类型：自主性提问、能力感检索、关联性回复，有不同的模板）。该指令被输入到一个评估器LLM ( M ) 中，由 ( M ) 生成两个输出：1) 自然语言形式的潜力差值 ( r_{(s_t;a_t;p_t)} )，描述动作 ( a_t ) 如何推动对话朝向目标 ( iE )；2) 自然语言梯度 ( h{(s_t;a_t;p_t)} )，基于潜力差值提供具体的改进建议。这个生成式潜力函数不仅表达能力更强、适应性更广，而且其生成特性带来了固有的可解释性，为后续解决探索挑战奠定了基础。
第三阶段：提示引导的动作提议 GPE生成的自然语言梯度 ( h ) 被用作一种特权信息，来指导探索。在每一轮交互中，研究者将当前状态 ( s_t )、原始动作 ( (a_t, pt) ) 以及文本梯度 ( h ) 整合成指令集 ( I{hap} )，输入给评估器LLM ( M )，让其生成 ( m ) 个改进后的动作参数候选集 ( C_{(s_t;a_t;p_t)} )。这一过程利用LLM的理解和生成能力，在梯度提示的引导下，探索比原始动作更有潜力的新动作。 生成了候选动作后，需要对其进行评估以构建用于偏好优化的训练样本 ( (s_t, a_t, p_t^+, pt^-) )。研究者设计了一族判别式潜力函数 ( f{eval} )。其核心逻辑是：比较候选动作参数与原始参数在相同状态下的内在奖励。对于检索类动作，直接计算候选查询与目标物品的相似度；对于提问和回复类动作，则再次利用LLM ( M ) 通过专门的指令集 ( I_{cae} ) 来预测用户的潜在反应并比较不同候选的潜力。最终，筛选出优于原始动作的候选作为正样本 ( p_t^+ )，原始动作作为负样本 ( pt^- )，构建偏好数据集 ( D{pre} )。
第四阶段：条件直接偏好优化 在获得了跨不同动作类型的偏好数据后，直接混合进行训练可能导致全局策略结构的漂移。受分层强化学习的启发，GIMO提出了条件直接偏好优化。它在标准DPO目标的基础上，引入了一个显式的条件KL正则化项。这个正则化项作用于策略的动作选择阶段 ( \pi_\theta(a_t | st) )，约束其与冷启动阶段学到的专家级策略 ( \pi{sft}(a_t | s_t) ) 不要偏离太远。 CDPO的损失函数由两部分组成：一部分是标准的DPO损失，用于根据偏好数据优化动作参数生成；另一部分是条件KL散度损失，用于保持高级别的策略编排模式的稳定性。这样，CDPO在允许局部策略（具体动作内容）根据反馈进行改进的同时，保留了全局策略结构，从而实现了多技能的协同学习而不崩溃。
三、 主要研究结果
研究者在基于Amazon-Book、Amazon-Game和Yelp三个真实世界数据集构建的交互式推荐环境中进行了广泛实验，使用AILO-Agent作为用户模拟器。评估指标包括：成功率、召回率和用户评分。
整体性能对比：GIMO在三个数据集上的平均成功率和召回率均显著优于所有基线方法。与表现最好的训练基线（SPO）相比，GIMO在平均成功率上提升了约6个百分点（0.47→0.53），在平均召回率上提升了约5个百分点（0.55→0.60）。在用户满意度方面，与专注于用户满意度的ECPO方法表现相当。这证明了GIMO在提升最终推荐效果的同时，保持了良好的用户体验。
多轮对话性能动态：通过分析代理在对话过程中对目标物品的Top-5召回率变化，研究发现，仅用SFT训练的代理提升缓慢且后期存在波动。而经过GIMO优化的代理，其召回率随着对话轮次稳步上升，并在后续轮次中保持高位稳定。这表明得益于其全局策略一致性设计，GIMO能使代理在多轮交互中更有效地聚焦并收敛于最终目标，避免陷入局部最优或策略振荡。
动作提议过程分析：对HAP阶段生成的偏好样本进行统计分析发现，在所有三种动作类型下，被选为正样本的分数分布均显著且稳定地高于被拒绝的负样本。这从数据层面证实了HAP机制能够可靠地生成高质量的回合级偏好关系，为后续的CDPO训练提供了有效信号。
消融实验：
各训练阶段的有效性：移除GPE（用静态提示替代）导致性能大幅下降，尤其是在Book和Yelp数据集上，平均下降超过0.07，证明了生成式潜力估计对于细粒度信用分配的关键作用。移除HAP的动作评估机制会导致性能波动和下降，显示了该机制对于筛选高质量样本、保证训练稳定性的重要性。将CDPO替换为标准DPO会导致最大的性能退化（平均下降约0.072），凸显了条件KL正则化在整合多能力、保持全局策略结构方面的不可或缺的稳定器作用。
动机维度消融：分别移除自主性、能力感或关联性任一维度的动机组件，都会导致性能显著下降。其中，移除自主性导致的整体性能下降最大，而移除关联性对成功率的影响最大，这表明用户相关的反馈对最终推荐结果有更直接的影响。
四、 结论与价值
本研究得出结论：GIMO是一种有效的、基于内在动机的IRA训练新范式。它通过生成式的方式构建了围绕自主性、能力感和关联性三大核心维度的内在动机，并驱动了一个包含生成式潜力估计、提示引导动作提议和条件直接偏好优化的三阶段优化流程。理论分析证明了GIMO能保证全局策略的一致性，大量实验也证实了其卓越性能。
本研究的科学价值与应用价值在于： 1. 理论创新：首次从内在动机视角重新审视IRA的优化问题，将心理学理论与强化学习、大语言模型技术相结合，为理解和发展智能交互代理提供了新的理论框架。 2. 方法创新：提出的GIMO框架系统性地解决了信用分配、大动作空间探索和多技能协同学习三大挑战。其核心组件（GPE, HAP, CDPO）都具有创新性，特别是利用LLM进行生成式奖励塑造和探索引导的思路。 3. 实践价值：为构建更高效、更智能、用户体验更好的下一代交互式推荐系统提供了切实可行的训练方案。该方法不依赖于昂贵的标注数据，能通过环境反馈进行持续优化，具有很好的应用前景。
五、 研究亮点
视角新颖：创造性地将心理学中的自我决定理论引入到交互式推荐代理的优化中，为研究提供了深刻的理论依据和统一的解释框架。
框架系统：提出的GIMO框架是一个完整的、端到端的解决方案，环环相扣地解决了从信用分配到探索再到协同学习的全链条问题。
方法巧妙：利用LLM本身的能力（错误归因、文本生成）来构建生成式内在奖励和引导探索，实现了“以子之矛，攻子之盾”，降低了额外奖励模型的需求。
理论保障：不仅提出了实践方法，还从理论上证明了所提方法能保证全局策略的一致性，增强了工作的严谨性和可信度。
实验充分：在多个数据集上进行了全面实验，包括整体性能、动态过程、组件消融等多维度分析，有力地支撑了结论。
六、 其他有价值内容
研究者在论文中还进行了详细的相关工作梳理，从SDT视角对现有IRA研究进行了系统分类（自主性、能力感、关联性），并从智能体强化学习、多轮偏好优化、内在动机等角度对比了现有方法，清晰地定位了本工作的贡献。此外，附录中提供了定理3.1关于策略一致性的完整证明，以及详细的基线方法介绍和实现细节，确保了工作的可复现性。代码已开源，便于社区进一步研究和应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问