分享自:

Personax:面向推荐代理的长行为序列用户建模框架

期刊:Findings of the Association for Computational Linguistics: ACL

基于PersonaX框架的长行为序列推荐代理用户建模研究学术报告

一、 研究作者、机构与发表信息

本研究的主要作者为Yunxiao Shi、Wujiang Xu、Zeqi Zhang、Xing Zi、Qiang Wu和Min Xu。作者单位分别为悉尼科技大学(University of Technology Sydney)和罗格斯大学(Rutgers University)。该研究成果以题为“PersonaX: A Recommendation Agent-Oriented User Modeling Framework for Long Behavior Sequence”的论文形式,发表于计算语言学领域顶级会议“计算语言学协会发现”(Findings of the Association for Computational Linguistics: ACL 2025)的会议录中,收录于第5764至5787页。会议于2025年7月27日至8月1日举行。

二、 学术背景与研究目标

本研究隶属于人工智能领域下的个性化推荐系统与大型语言模型(Large Language Model, LLM)应用交叉研究方向。随着LLM能力的突破,基于指令的智能代理(Agent)在自主交互和决策方面展现出巨大潜力。在推荐系统中,构建能够模拟真实用户行为的个性化推荐代理(Personalized Recommendation Agent)成为新兴热点。这类代理的核心在于如何将用户的真实兴趣和偏好,即用户画像(User Profile),有效地嵌入到提示(Prompt)模板中,以指导代理的决策过程,实现个性化推荐。

然而,当前利用LLM进行用户建模(LLM-UM)的方法面临几个关键挑战:首先,LLM受限于上下文长度,难以有效处理和分析用户长期、海量的历史行为序列,且存在“中间信息丢失”(lost-in-the-middle)现象,导致性能下降。其次,现有方法(如最近采样、相关性采样)通常只能从完整历史序列中抽取部分片段,不可避免地丢弃了被省略内容中蕴含的多样化用户兴趣,导致建模不完整,生成的用户画像质量欠佳。最后,现有用户画像建模过程通常与在线推理上下文紧密耦合,需要在每次推荐请求时实时处理,这引入了显著的延迟开销,影响系统效率。

为应对上述挑战,本研究提出了PersonaX框架。其核心目标是:开发一个与具体推荐代理无关(agent-agnostic)的LLM-UM框架,能够从长行为序列中高效、高质量地构建用户画像,并将其与在线推理过程解耦,从而在提升下游推荐代理性能的同时,显著降低在线推理延迟。

三、 详细研究流程与方法

PersonaX框架是一个端到端的离线用户画像建模与在线检索系统,其工作流程主要包括四个核心步骤:行为聚类、采样预算分配、簇内选择以及离线画像构建与在线选择。

1. 行为聚类: * 研究对象与处理: 输入为一个用户完整的、长度为n的历史行为序列S,其中每个行为包含交互物品ii及其标签(喜欢/不喜欢)。研究首先使用一个语言嵌入模型(如BGE、EasyRec)将每个物品的文本描述编码为稠密向量ei,形成嵌入集合E。 * 实验方法: 采用层次聚类(Hierarchical Clustering)算法,基于物品嵌入向量之间的欧氏距离,将用户的历史行为物品聚合成多个簇(Cluster)。聚类过程由一个距离阈值τ控制,确保簇内任意两个物品的距离小于τ,而不同簇之间的距离不小于τ。这样,每个簇代表用户一个相对集中、语义连贯的兴趣领域。

2. 采样预算分配: * 研究目标: 在给定总采样预算k(即最终要选择的子行为序列SBS总长度)的情况下,如何将预算k合理地分配到各个聚类簇中。 * 算法流程(算法1): 研究提出了一种动态分配策略。首先将所有簇按大小升序排列。然后迭代地为剩余簇计算平均分配额q(剩余预算/剩余簇数)。对于当前簇,若其大小小于q,则分配其全部大小;否则,分配q。此过程重复直至预算分配完毕。该策略优先保证小簇获得足够样本(甚至全部样本),防止大簇主导选择过程,从而在有限的采样资源下,最大程度地保留用户多样化的兴趣,包括长尾兴趣。

3. 簇内选择: * 研究目标: 在每个簇内部,根据分配到的预算ai,选择最具代表性的子集C*i,以构成高质量的核心行为集。 * 核心算法(算法2与目标函数): 这是本研究的创新关键。传统方法要么只选择最接近簇中心(质心)的“原型”样本(强调典型性),要么选择位于簇边界的“边界”样本(强调多样性),各有局限。PersonaX提出了一种平衡典型性(Prototypicality)与多样性(Diversity)的贪心选择算法。其目标函数旨在最大化所选样本集C*i的以下综合得分: * 典型性得分: 衡量所选样本与簇质心µi的接近程度,计算公式为Σ(1 / (1 + d(ej, µi))),距离越近得分越高。 * 多样性得分: 衡量所选样本彼此之间的差异程度,计算公式为(2/ai) * Σ d(ea, eb),样本间距离越大得分越高。 * 算法流程: 通过一个超参数α(通常设置在1.06-1.08之间)来调节典型性权重wp(= α^-10)和多样性权重wd(= 1 - wp)。算法首先选择距离质心最近的样本作为初始点,然后迭代地选择能使当前综合增益(典型性增益+多样性增益)最大的样本加入集合,直到选满ai个样本。最终,将每个簇选出的样本按时间顺序排序,形成该簇对应的子行为序列(Sub-Behavior Sequence, SBS)s*i。

4. 离线画像构建与在线选择: * 离线阶段: 对每个簇产生的SBS s*i,使用LLM的用户建模方法(如摘要Summarization或反思Reflection)离线生成一个细粒度的、文本化的“人物角色”(Persona)pi。所有簇的pi被缓存起来,形成该用户的多个角色片段集合。 * 在线阶段: 当推荐代理需要为一个目标物品进行推荐时,它无需实时生成用户画像,而是从缓存的多个角色片段中,检索出与当前目标物品最相关的一个片段p_selected,并将其插入到代理的提示模板中,指导其进行推荐决策。这种“生成-检索”范式将高耗时的画像建模过程移到了离线,在线仅需低成本的检索操作。

四、 主要研究结果与分析

研究在三个公开数据集(CDS50, CDS200, Books480)上,将PersonaX集成到两个先进的推荐代理(AgentCF和Agent4Rec)中进行了广泛的实验验证,主要回答了三个研究问题(RQ)。

RQ1: PersonaX对下游推荐代理性能的提升及与基线对比。 * 结果: 如表2所示,PersonaX在所有数据集和评估指标(Hit Rate, NDCG, MRR)上均显著超越了所有基线方法,包括使用完整序列(Full)、最近采样(Recent)、相关性采样(Relevance)、随机采样(Random)以及仅强调典型性(Centroid)或多样性(Boundary)的采样策略。 * 数据支持与逻辑: 例如,在Books480数据集上,使用PersonaX的Agent4Rec在Hit@1上达到65%,比最强的基线方法Relevance(61%)高出4个百分点,比使用完整序列的方法(19%)高出46个百分点。这强有力地证明了:1)现有方法在处理长序列时存在严重缺陷;2)PersonaX通过聚类和平衡采样构建的高质量核心行为集,能够更全面、更精准地捕捉用户兴趣,从而生成更优的用户画像。即使PersonaX仅使用了30%-50%的行为数据(序列长度小于5),其性能也全面优于使用全部数据或更多数据的基线方法,体现了其数据高效性。

RQ2: 采样规模(SBS长度)对用户建模效能的影响。 * 结果: 如表3所示,PersonaX的性能并非随采样比例(即使用的数据量)单调增加。在CDS50、CDS200和Books480数据集上,性能峰值分别出现在30%、50%和50%的采样比例附近。 * 分析与逻辑: 这一发现颠覆了传统推荐系统中“数据越多越好”的直觉。研究进一步绘制了不同采样策略下性能随采样规模变化的曲线(图3),发现所有采样策略都存在一个“最优采样规模”,超过该规模后性能会下降。对于Relevance方法,最优规模约为3;Recent方法对单条最近行为敏感;Random方法最优规模约为5。这表明LLM-UM存在“信息过载”或“噪声干扰”问题,过长的输入序列反而会损害LLM的推理质量。PersonaX通过选择高质量、高信息密度的核心行为,能够在极短的序列长度()内达到最佳性能,这为设计高效的LLM-UM方法提供了重要指导。

RQ3: 超参数敏感性分析与调优。 * 结果: 如图4所示,研究分析了聚类距离阈值τ和平衡参数α对性能的影响。 * 分析与逻辑: 实验表明,PersonaX在τ ∈ [0.5, 0.7]和α ∈ [1.04, 1.08]的范围内表现稳健。具体而言:1)在低采样比下,性能对参数不敏感,因为选择主要集中于簇中心附近。2)在高采样比下,较大的α(如1.06-1.08)能带来显著性能提升,说明在选取了核心原型后,纳入多样性样本对性能有益。3)τ和α存在交互:当τ较小(聚类更细)时,适合用较大的α来增加多样性;当τ较大(聚类更粗)时,适合用稍小的α防止过度分散。最差参数配置下的性能(71.6)仍接近最强基线(71.86),证明了方法的鲁棒性。

效率分析结果: * 理论分析(表1): 研究对比了不同LLM-UM策略的离线与在线时间复杂度。PersonaX将主要的计算成本(聚类、采样、LLM生成多个Persona)转移至离线阶段。 * 模拟实验(图2): 在一个假设的连续在线服务场景中(Persona缓存用于连续10次推理调用),集成PersonaX的Agent4Rec相比使用Relevance采样的原版,在线运行时间减少了95%;相比使用Recent采样的原版,减少了91%。这从理论上和模拟实验上均证实了PersonaX在显著提升推荐准确率的同时,能极大降低在线推理延迟。

五、 研究结论与价值

本研究提出了PersonaX,一个面向推荐代理、专门用于处理长行为序列的LLM用户建模框架。其核心贡献在于:1)通过聚类和平衡采样,从长序列中高效提取高质量、短长度的核心行为子集;2)离线生成多个人物角色片段,捕捉用户多样化兴趣;3)将用户画像建模与在线推理解耦,通过检索而非实时生成来提供服务。

科学价值: PersonaX首次系统性地解决了LLM-UM在处理长行为序列时面临的上下文限制、信息丢失和在线延迟三大挑战。它提出了一种数据高效的“质量优于数量”的采样哲学,并通过平衡典型性与多样性的创新选择机制,为序列信息压缩和表示学习提供了新思路。该框架是模型无关的,为 scalable user modeling 设立了新的基准。

应用价值: 该框架能无缝增强现有的推荐代理(如AgentCF, Agent4Rec),在仅使用30-50%行为数据的情况下,带来显著的推荐性能提升(AgentCF提升3-11%,Agent4Rec提升10-50%),同时大幅降低在线服务延迟,具有很高的工业部署潜力。

六、 研究亮点

  1. 创新性框架: 首次提出一个完整的、解耦的、面向代理的离线用户画像建模框架,系统性解决了长序列LLM-UM的痛点。
  2. 高效核心行为选择算法: 提出了结合聚类、自适应预算分配和典型性-多样性平衡的簇内选择算法,能够用极短的行为序列(常)高效表征用户的长周期、多样化兴趣。
  3. 显著的性能与效率增益: 实验证明,PersonaX在多个数据集和基准模型上均能同时实现推荐精度的大幅提升和在线延迟的急剧下降。
  4. 深入的实证分析: 不仅验证了框架有效性,还深入探究了采样规模的影响、超参数的敏感性,并提供了可视化分析(附录D,E),揭示了方法的内在机理。

七、 其他有价值内容

研究还讨论了PersonaX的局限性未来方向:当前工作在真实世界的流式数据场景下的性能尚未探索;未来可研究离线生成的Persona在在线部署中的有效持续时间,以及性能随时间的衰减动态,以指导自适应更新策略。此外,研究遵循了严格的伦理规范,仅使用公开数据集用于学术研究。代码已公开在GitHub,促进了研究的可复现性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com