学术研究报告:RASTP:面向语义标识生成式推荐系统的表征感知语义令牌剪枝
一、 研究作者、机构及发表信息
本研究由浙江大学的詹天宇(Tianyu Zhan)、傅凯睿(Kairui Fu)、吕哲祺(Zheqi Lv)和张盛裕(Shengyu Zhang)共同完成。其中,詹天宇与傅凯睿为共同第一作者,吕哲祺与张盛裕为通讯作者。该研究以论文形式发表于ACM Web Conference 2026 (WWW ’26) 会议,会议于2026年4月13日至17日在阿联酋迪拜举行。论文标题为《RASTP: Representation-Aware Semantic Token Pruning for Generative Recommendation with Semantic Identifiers》。
二、 学术背景与研究目的
本研究隶属于信息科学领域,具体聚焦于生成式推荐系统(Generative Recommendation, GR) 的效率优化问题。近年来,生成式推荐已成为工业界推荐系统的一种强大范式。与以往仅利用大模型增强传统推荐流程的方法不同,生成式推荐通过直接生成项目标识符(Item Identifiers)来进行端到端的下一项预测。该范式的核心是采用语义标识符(Semantic Identifiers, SIDs) 。SIDs将每个项目表示为一个分层的语义码字序列,使得语义相似的项目可以共享表征,并以紧凑的方式编码指数级庞大的项目空间,而无需巨大的词汇表。
尽管基于SID的生成式推荐性能强劲,但其计算开销巨大。一个关键瓶颈在于,由多个令牌(Tokens)组成的SID表示会显著增加输入序列的长度。输入序列长度是计算复杂度和内存消耗的主要决定因素。在工业场景中,模型需要每天在数十亿新交互数据上重新训练以保持时效性,因此训练时间成为关键瓶颈。现有研究工作主要集中于优化注意力计算和键值缓存(KV Cache),而直接优化SIDs本身、减少冗余计算的研究则相对不足。
基于以上背景,本研究团队观察到,并非项目的所有语义特征对预测的贡献都是均等的,用户通常只关注其中的一个子集。这一现象体现在令牌层面:经过Transformer层的处理后,某些令牌会变得冗余,因为它们的内容已经被信息量更大的令牌所表征。受此观察及相关工作的启发,本研究旨在解决现有方法的局限性,提出一种高效的训练策略,以动态识别并保留信息量最大的SID令牌,从而在维持推荐性能的同时,显著提升训练效率。具体目标包括:提出一种新颖的令牌剪枝方法、分析不同剪枝策略与时机对性能与效率权衡的影响,并通过在真实世界数据集上的实验验证其有效性。
三、 详细研究流程与方法
本研究主要包括以下几个核心步骤:语义ID令牌化、下一项生成模型训练,以及核心创新点——表征感知语义令牌剪枝(RASTP)的集成与应用。实验部分则系统评估了RASTP的效果。
1. 语义ID令牌化 这是为项目生成离散语义标识符的预处理步骤。首先,利用预训练的大型语言模型或多模态编码器(如Flan-T5)将每个项目i的丰富语义特征(如标题、类别、描述等)编码为一个稠密嵌入向量 h_i。接着,采用分层向量量化方法,具体是RQ-Kmeans,将该稠密向量离散化为一个L层的SID序列:SID_i = [sid_i^(1), sid_i^(2), …, sid_i^(L)]。其中,每个sid_i^(ℓ) 是一个索引值,指向第ℓ个大小为W的码本。这样,每个项目就被表示为一个具有层次化语义的令牌序列,替代了传统的单一项目ID,使得生成式推荐模型能够更明确地捕捉用户的兴趣点。
2. 下一项生成模型训练 给定用户的历史交互序列,其中的每个项目被其对应的SID序列替换,从而形成一个扩展后的令牌序列作为生成式推荐器的输入。该生成式推荐模型可以采用多种架构(如T5、Qwen等),其训练目标是自回归地预测目标项目的SID序列。形式化地,设目标项目的SID令牌序列为c = [c_1, c_2, …, c_L],标准训练目标为交叉熵损失函数。此过程是标准的生成式推荐训练流程。
3. 表征感知语义令牌剪枝 这是本研究的核心创新方法,旨在解决因SID序列变长导致的训练低效问题。RASTP是一种动态令牌选择策略,它根据令牌的语义内容,在训练过程中仅保留信息量最大的SID令牌,从而缩短序列长度、加速训练。
详细工作流程如下: * 输入与获取中间信息:对于一个长度为T的用户交互序列(每个项目对应L个SID令牌),输入嵌入矩阵的维度为 B × (T×L) × d。在模型前向传播过程中,当数据经过某个中间Transformer层后,RASTP模块会获取该层的两个关键输出:上下文表征矩阵 h(维度同上)和该层多头注意力机制的注意力权重矩阵 A。 * 计算令牌重要性分数:RASTP为序列中的每个位置k的令牌计算一个重要性分数 I_k。该分数综合了两个信号: * 语义显著性:通过计算该令牌上下文表征 h_k 的L1范数(即向量各元素绝对值之和)来衡量。这反映了令牌本身所携带的语义信息丰富程度。 * 注意力中心性:通过计算该令牌 k 在所有查询位置和所有注意力头上收到的累积注意力分数之和来衡量。这反映了该令牌在上下文建模中被其他令牌关注的程度,即其在当前序列中的重要性。 * 最终的重要性分数定义为两者乘积:I_k = S_k · ||h_k||_1。这种设计确保了那些既语义丰富又被广泛关注的令牌获得高分。 * 动态令牌选择与剪枝:给定一个目标缩减比例 ρ,RASTP为每个序列选择重要性分数最高的前K个令牌(K = ⌊ρ·T·L⌋)。将这些被选中令牌的索引按升序排序以保持时间顺序。随后,仅保留这些高信息量令牌对应的表征和注意力掩码,形成压缩后的序列 h’ 和 m’。这些压缩后的数据被传递给后续的Transformer层进行标准的训练。 * 轻量级设计:用于评分的重要性信号(注意力权重和中间表征)均来自同一次前向传播,因此RASTP引入的开销极小,可以轻松集成到基于Transformer的生成式推荐模型中。
4. 实验设计与评估 为了全面评估RASTP,研究团队在三个真实的亚马逊数据集(Beauty, Sports, Toys)上进行了广泛的实验,旨在回答三个研究问题(RQs)。
实验设置:
实验流程与内容:
四、 主要研究结果
实验结果为上述研究问题提供了详实的答案。
1. RQ1结果:RASTP有效提升效率且保持性能 如表2所示,在编码器第二层后应用RASTP,在三个数据集上均实现了约26.7%的训练加速。与此同时,推荐性能得到了保持,甚至在Beauty和Toys数据集上略有提升。例如,在Beauty数据集上,Recall@5从0.0426±0.0013提升至0.0441±0.0010;在Toys数据集上,从0.0345±0.0010提升至0.0351±0.0014。在Sports数据集上性能有轻微下降,但仍在误差范围内。这一结果强有力地证明,RASTP能够通过剪枝语义冗余或噪声令牌来减少干扰,在提升训练效率的同时,不牺牲甚至可能略微改善推荐质量。
2. RQ2结果:RASTP的剪枝策略优于基线 图2展示了不同剪枝策略的验证曲线和最终测试结果。结果显示: * 池化方法(最大池化、平均池化)导致了显著的性能下降,这是因为它们过度丢失了细粒度的语义信息。 * 基于L2范数的剪枝性能优于池化方法,但仍落后于RASTP。 * RASTP在所有评估指标上都能保持强劲且稳定的性能。这证实了RASTP所采用的、结合了注意力中心性和语义显著性的令牌选择策略,能够在实现序列压缩的同时,更有效地保持语义保真度。
3. RQ3结果:第二层是剪枝的最佳时机 图3展示了在不同层进行剪枝的验证曲线和测试结果。研究发现: * 在第一层后剪枝可以获得最高的训练加速(38.22%),但会导致明显的性能下降。这表明在早期层进行剪枝可能会丢弃尚未充分交互的有用信息。 * 在第二层后剪枝达到了最优的平衡,实现了26.7%的训练加速,同时保持了推荐精度(如表2所示)。 * 在更靠后的层剪枝(如第三、四层)虽然能达到与第二层相近的性能,但带来的训练加速效果显著降低。 这一发现表明,令牌剪枝在中间层(第二层)应用最为有效。此时,信息量较少的令牌已经通过上下文交互被更具代表性的令牌充分“吸收”,对其进行剪枝既能保证效率,又不会损害模型的信息处理能力。
五、 研究结论与价值
本研究得出结论:提出的表征感知语义令牌剪枝(RASTP) 是一种用于基于语义标识符(SID)的生成式推荐系统的高效策略。RASTP通过结合注意力中心性和语义显著性,动态地剪枝信息量较低的SID令牌,从而在不损害推荐质量的前提下显著加快了模型训练速度。
本研究的价值体现在以下几个方面: * 科学价值:首次系统地探讨并解决了基于SID的生成式推荐中因序列过长导致的训练效率瓶颈问题。提出了一种新颖的、基于模型内部信号(注意力机制和中间表征)的动态令牌重要性评估与剪枝框架,为序列模型的压缩和加速提供了新的思路,特别是在具有结构化离散输入的生成任务中。 * 应用价值:为工业级大规模生成式推荐系统的实际部署提供了切实可行的效率优化方案。26.7%的训练时间减少意味着更快的模型迭代速度、更低的计算资源成本和能源消耗,对于需要日级别甚至更频繁更新的在线推荐系统具有重要的现实意义。 * 方法论贡献:不仅提出了RASTP方法,还通过详实的实验分析了剪枝策略和剪枝时机的影响,为后续相关研究提供了重要的设计指南和参考基线。
六、 研究亮点
七、 其他有价值内容