本文献是Bowen Zheng、Hongyu Lu、Yu Chen、Wayne Xin Zhao和Ji-Rong Wen所著的研究论文“Universal Item Tokenization for Transferable Generative Recommendation”(可迁移生成式推荐的通用项目标记化)。作者单位包括中国人民大学高瓴人工智能学院以及腾讯微信。该论文发表在某个会议论文集(会议名称为“Conference Acronym ’xx”,根据文中信息,会议于2018年6月3-5日在Woodstock, NY举行)中,收录于ACM数字图书馆。
本研究的学术领域是人工智能在信息检索与推荐系统中的应用,具体聚焦于序列推荐系统(Sequential Recommender Systems)与生成式人工智能(Generative AI)的交叉方向。近年来,生成式推荐(Generative Recommendation)作为一种新兴范式崭露头角,其基本框架包含两个核心组件:项目标记器(Item Tokenizer),它将每个项目映射为一个由多个代码(codes)组成的标识符序列;以及生成式推荐器(Generative Recommender),它通过自回归地生成目标项目的标识符来预测下一个项目。然而,现有方法中的标记器和推荐器通常是针对特定领域(domain-specific)训练的,这极大地限制了它们向新领域进行有效迁移或适应的能力。领域特定性导致模型难以利用跨领域的数据和知识,在面对数据稀疏或冷启动问题时表现不佳。针对这一核心局限,本研究旨在开发一种“通用”的项目标记化方法,以实现可迁移的生成式推荐。具体而言,本研究的目标是:设计一个能够编码丰富项目语义的通用项目标记器;提出一种创新的表示离散化方法;构建一个联合学习框架,以跨多个领域预训练并适配生成式推荐器;最终,通过实验验证该方法在多个公开数据集上优于现有传统推荐与生成式推荐基线模型。
本研究的方法论和工作流程可以详细阐述为以下几个关键部分:
第一,通用项目标记器的设计。 这是整个UTGRec框架的基础。与以往依赖单一文本或预编码嵌入的方法不同,本研究创新性地利用项目的多模态内容(文本和图像)作为输入。具体工作流程如下:首先,采用一个多模态大语言模型(Multimodal Large Language Model, MLLM),文中使用Qwen2-VL,作为编码主干。通过精心设计的输入提示词(prompt),将项目的文本信息(如标题、特征、类别)和图像信息输入MLLM,并指示模型将信息压缩成L个连续的表示向量(token)。这些向量代表了从粗到细不同粒度的项目内容语义。这一步骤确保了编码过程能够捕捉全面、丰富的项目语义信息。
第二,通过树形结构码书进行表示离散化。 获得连续的表示向量后,需要将其离散化为代码序列以形成项目标识符。本研究提出了两项关键技术来优化这一过程。首先是“前缀残差操作”(Prefix Residual Operation)。由于MLLM压缩出的L个表示可能高度相似,直接离散化效果不佳。该方法将第一个表示作为基础表示,后续每个表示都减去前一个表示,得到一系列“增量表示”。这使得不同层级的表示更具区分度,基础表示捕捉核心信息,增量表示捕捉细节差异。其次是核心创新——“树形结构码书”(Tree-Structured Codebooks)。该结构包含两个组件:一个根码书(Root Codebook)用于离散化基础表示;一个共享的叶码书(Leaf Codebook)用于离散化所有L-1个增量表示。这种共享机制迫使叶码书必须学习并融合来自多个领域、不同项目的增量语义信息,从而显著提高了码书的利用率,并促进了跨领域语义的融合。此外,为了避免码书在训练中出现表示坍缩(即只有少数码书向量被激活),本研究借鉴了最新工作,将每个码书参数化为一个码书矩阵与一个投影矩阵的乘积,使得梯度能够驱动整个码书空间的优化,进一步强化了多领域融合。
第三,结合协同知识整合的项目内容重建。 为了训练这个通用标记器,本研究设计了一个多任务的优化目标,而不仅仅是简单的重建。1. 原始内容重建:在通过树形码书得到项目的离散代码和对应的离散表示后,本研究通过一个逆操作将这些离散表示恢复为近似的内容表示。然后,引入两个轻量级的解码器:一个文本解码器和一个图像解码器。文本解码器通过类似掩码语言建模(Masked Language Modeling, MLM)的方式,强制模型仅基于离散表示来重建原始项目文本;图像解码器则结合一个小型扩散模型(Diffusion Model),以扩散损失(Diffusion Loss)来重建原始项目图像。这两个重建任务迫使码书必须学习到能够保留和还原项目原始多模态内容的语义信息,从而编码了通用的项目知识。2. 协同知识整合:仅有内容重建无法捕捉推荐系统中至关重要的用户行为协同信号。因此,本研究基于“共现项目相似”的直观假设,引入了协同知识。具体包括两个子任务:共现项目对齐,使用对比学习(Contrastive Learning)来拉近在用户交互序列中共现的项目的连续内容表示(来自MLLM编码器),从而使编码器学习到协同模式;共现项目重建,要求使用当前项目的离散表示,去重建其共现项目的文本和图像。这个任务不依赖负样本,隐式地鼓励当前项目的离散表示学习其共现项目的语义,使得码书能够编码项目之间的协同相似性。最终,总损失函数是原始内容重建损失、码书学习损失以及两个协同知识整合损失的加权和。
第四,可迁移生成式推荐器的学习框架。 在预训练好通用项目标记器后,本研究构建了一个两阶段的推荐器学习流程。1. 多领域预训练:使用预训练好的通用标记器,将多个源领域(文中使用了5个亚马逊产品品类)的所有项目统一映射到相同的代码空间中,生成对应的代码序列。将这些跨领域的代码序列混合,用于训练一个基于Transformer的生成式推荐器(文中使用T5架构)。推荐器的任务是以前缀的代码序列(历史交互)为条件,自回归地预测下一个项目的代码序列。这个过程使推荐器在大量跨领域数据上学习了通用的项目代码关联和序列预测模式。2. 下游领域微调:当需要适应一个新的目标领域时,首先对通用项目标记器进行轻量级微调。关键策略是固定树形码书中的主码书矩阵(保留通用知识),仅微调投影矩阵以融入新领域的特性。然后,使用微调后的标记器对新领域项目进行标记化。最后,用新领域生成的代码序列对预训练好的生成式推荐器进行微调。这一流程实现了知识从多个源领域向目标领域的有效迁移。
本研究在四个公开的下游亚马逊数据集(Musical Instruments, Industrial and Scientific, Video Games, Office Products)上进行了广泛的实验,以评估UTGRec的有效性。
实验结果明确支持了所提方法的优越性。在总体性能方面,UTGRec在所有四个数据集的所有评估指标(Recall@5⁄10, NDCG@5/10)上均显著超越了所有基线模型,包括传统的序列推荐模型(如GRU4Rec, SASRec)、基于内容的可迁移推荐模型(如UniSRec, MISSRec)以及生成式推荐模型(如TIGER, LETTER)。与最强的生成式基线TIGER相比,UTGRec取得了显著的性能提升。这验证了通用项目标记化与跨领域预训练对于生成式推荐范式的重要性。
消融研究深入剖析了各个组件的贡献。实验表明:移除树形结构码书(改用普通的多层码书)、移除共现项目对齐损失或移除共现项目重建损失,都会导致模型性能下降,证明了每个组件都是必要的。更重要的是,研究对比了不同的迁移策略:不进行标记器微调(直接使用预训练标记器)或对码书进行完全微调(而非仅微调投影矩阵)都会损害性能。这证实了所提出的“固定码书矩阵、微调投影矩阵”的适配策略对于保持预训练通用知识同时适应新领域是至关重要的。此外,实验也证明了同时进行标记器和推荐器的预训练,比仅在目标领域从头训练(领域特定设置)或仅预训练标记器而不预训练推荐器,能带来更大的性能增益。
进一步分析揭示了模型的更多特性。1. 模型可扩展性分析:与基线生成式推荐模型(如TIGER)在模型层数增加时容易过拟合不同,UTGRec的性能随着生成式推荐器层数的增加而持续提升。这表明跨领域预训练提供了更丰富的数据基础,使得更大的生成式模型能够被有效训练,展现了良好的可扩展性。2. 长尾项目性能:UTGRec在所有流行度分组(包括最冷门的[0,20)分组)的项目预测上都优于基线模型,尤其是在冷门项目上优势更为明显。这凸显了该方法通过通用语义理解和跨领域知识迁移,在缓解数据稀疏和冷启动问题上的强大能力。
本研究的结论是,提出并验证了UTGRec这一新颖框架,它通过通用项目标记化实现了可迁移的生成式推荐。该框架的核心贡献在于:设计了一种基于MLLM和树形结构码书的通用项目标记器;提出了一种结合原始内容重建与协同知识整合的标记器预训练方法;并构建了一个完整的预训练-微调学习范式。实验证明,UTGRec能够有效地将多领域知识和生成式范式的优势结合起来,在标准推荐任务上取得最先进的性能,并且显著提升了模型在跨领域迁移和长尾项目推荐上的能力。
本研究的亮点在于:第一,创新性地提出了“通用项目标记化”这一概念和实现路径,打破了现有生成式推荐模型局限于特定领域的瓶颈。第二,方法设计上的多重创新:1)利用MLLM编码多模态内容,丰富了语义来源;2)提出树形结构码书,巧妙地通过共享机制促进跨领域融合并防止表示坍缩;3)在标记器训练中同时引入内容重建与协同信号整合,同时捕获了项目的内在语义和外在关联。第三,系统的可迁移学习框架:从标记器到推荐器的两阶段预训练-微调流程,为生成式推荐的领域适应提供了一个行之有效的范式。第四,全面的实验验证:不仅展示了总体性能优势,还通过细致的消融实验、可扩展性分析和长尾项目分析,深入验证了各组件的作用和模型的内在特性,使研究结论非常扎实。
总而言之,这项研究为生成式推荐系统的发展开辟了新的方向,即从领域特定走向通用与可迁移。它不仅具有重要的学术价值,推动了推荐系统与生成式AI融合的前沿探索,也具有显著的应用价值,为构建能够利用海量跨领域数据、更好地适应新场景和解决冷启动问题的下一代推荐系统提供了可行的技术方案。未来工作可以考虑纳入更多样化的领域和更丰富的交互数据,并进一步探索项目标记器和生成式推荐器本身的缩放规律。