这篇文档属于类型a,是一篇关于推荐系统中生成式检索新方法的原创研究论文。以下是针对该研究的学术报告:
本研究由Shashank Rajput(威斯康星大学麦迪逊分校)、Nikhil Mehta、Anima Singh等来自Google DeepMind和Google的研究团队共同完成,发表于NeurIPS 2023(第37届神经信息处理系统会议)。
研究领域:推荐系统(Recommender Systems)与生成式检索(Generative Retrieval)。
研究动机:传统推荐系统依赖双塔模型(Dual-Encoder)和近似最近邻搜索(Approximate Nearest Neighbor, ANN),存在两大局限:
1. 冷启动问题:新加入系统的物品因缺乏交互历史难以被推荐;
2. 嵌入表内存开销:物品数量增长时,嵌入表(Embedding Table)的存储成本线性增加。
目标:提出一种基于生成式检索的推荐框架TIGER(Transformer Index for Generative Recommenders),通过语义ID(Semantic ID)和序列到序列(Sequence-to-Sequence)模型直接生成候选物品的标识符,替代传统的嵌入匹配方法。
输入:物品的文本特征(如标题、品牌、类别),通过预训练文本编码器(如Sentence-T5)生成768维语义嵌入(Semantic Embedding)。
量化方法:
- RQ-VAE(残差量化变分自编码器):将嵌入向量分层量化为一组有序的语义码字(Codewords),构成语义ID。例如,某物品的语义ID为(5, 23, 55),其中每个码字来自不同层级的码书(Codebook)。
- 层级特性:第一层码字捕获粗粒度类别(如“美妆”),后续层逐步细化(如“口红→色号”)。
- 碰撞处理:若多个物品共享同一语义ID,通过追加唯一标识符(如(12,24,52,0)和(12,24,52,1))解决冲突。
模型架构:基于Transformer的编码器-解码器结构(4层编码器/解码器,6个注意力头)。
输入序列:用户历史交互物品的语义ID序列(如(5,23,55), (5,25,78), ...)与用户ID(通过哈希映射到2000个令牌)。
训练任务:自回归预测下一个物品的语义ID。例如,给定用户历史,模型逐步生成(5,25,55)的每个码字。
创新点:
- 语义ID的层次性:允许模型在粗/细粒度上共享知识(如推荐同类新品);
- 端到端索引:Transformer参数本身作为检索索引,无需额外存储物品嵌入表。
在Amazon三个数据集(Beauty、Sports and Outdoors、Toys and Games)上,TIGER显著优于基线模型(如SASRec、BERT4Rec):
- Beauty数据集:Recall@5提升17.3%(0.454 vs. 0.387),NDCG@5提升29%(0.321 vs. 0.249);
- 冷启动场景:通过语义ID的层级匹配,对无交互历史的物品召回率(Recall@10)比语义KNN基线高10%(图5b)。
科学价值:
1. 范式创新:首次将生成式检索引入推荐系统,通过语义ID和自回归解码替代传统ANN检索;
2. 理论贡献:证明了层级语义ID在知识共享和冷启动中的优势。
应用价值:
- 降低内存开销:嵌入表大小仅与码书容量(如1024)相关,而非物品数量(数亿级);
- 动态推荐:支持实时添加新物品,无需重新训练模型。
此研究为推荐系统领域提供了新的技术路径,其生成式检索框架和语义ID设计可能启发后续工作探索更高效的个性化推荐方案。