这篇文档属于类型a,是一篇关于生成式推荐系统的原创性研究论文。以下为详细的学术报告内容:
一、作者及发表信息
本研究由Ye Wang、Jiahao Xun(浙江大学)、Jieming Zhu(华为诺亚方舟实验室)等共同完成,发表于KDD ‘24(第30届ACM SIGKDD知识发现与数据挖掘会议),会议时间为2024年8月25日至29日,地点为西班牙巴塞罗那。论文标题为《EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration》。
二、学术背景
研究领域与动机
本研究属于推荐系统领域,聚焦于生成式检索(Generative Retrieval)技术。传统推荐系统依赖两阶段流程:先通过表征学习(如双塔模型)将用户和物品映射到隐空间,再通过近似最近邻搜索(ANN)索引(如Faiss)匹配候选物品。然而,这种分离的流程可能导致优化目标不一致,限制系统性能。
近年来,生成式检索通过将候选物品检索建模为自回归序列生成问题,实现了端到端的优化。但现有方法仅关注物品的行为信息(用户交互历史)或语义信息(文本/视觉描述),忽略了二者的互补性。为此,作者提出EAGER框架,首次将行为与语义信息协同整合到生成式推荐中,旨在解决以下挑战:
1. 设计统一架构以处理两种异构特征;
2. 确保两类信息的充分独立学习;
3. 促进跨模态的隐式交互以增强协作。
三、研究方法与流程
1. 两流生成架构(Two-Stream Generation Architecture)
- 共享编码器:基于Transformer的多头自注意力层,编码用户交互历史。
- 双编码生成:
- 行为编码:通过预训练的双塔模型(如DIN)提取物品嵌入,经层次化K-means聚类生成离散行为代码(Behavior Tokens)。
- 语义编码:利用通用模态模型(如Sentence-T5)提取文本嵌入,同样聚类生成语义代码(Semantic Tokens)。
- 双解码器:两个独立的Transformer解码器分别预测行为和语义代码,避免过早特征融合。
- 置信度排序:在推理阶段,基于预测熵对两流结果进行加权排序,生成最终推荐列表。
2. 全局对比任务(Global Contrastive Task)
- 摘要令牌(Summary Token):在代码序列末尾添加可学习的
[EOS]令牌,通过对比学习(采用平滑L1距离)蒸馏预训练编码器的全局特征,增强解码器的判别能力。
- 设计依据:受传统双塔模型对比学习和Transformer全局令牌设计的启发。
3. 语义引导迁移任务(Semantic-Guided Transfer Task)
- 双向Transformer解码器:以语义摘要令牌为条件,通过以下目标优化行为代码:
- 重构目标:预测被掩码的行为代码,利用语义全局特征辅助局部生成。
- 识别目标:二分类任务,判断行为代码是否与语义特征相关,促进高层知识迁移。
实验设置
- 数据集:Amazon(Beauty、Sports and Outdoors、Toys and Games)和Yelp 2019,过滤低频用户与物品(5-core)。
- 评估指标:Recall@K和NDCG@K(K=5/10/20)。
- 基线对比:包括传统序列模型(GRU4Rec、SASRec)、树索引方法(RecForest)及生成式方法(TIGER)。
四、主要结果
性能优势:
- EAGER在四个数据集上均超越基线,例如在Beauty数据集上Recall@5提升31.49%,NDCG@5提升32.26%。
- 生成式方法普遍优于传统模型,验证了端到端生成范式的有效性。
消融实验:
- 移除两流架构(TSG)导致最大性能下降(如Recall@5降低17.2%),证明双流设计的必要性。
- 全局对比任务(GCT)比迁移任务(STT)影响更大,表明全局信息蒸馏更关键。
模块分析:
- 语义引导方向:语义→行为的迁移效果优于反向,因语义信息提供更丰富的先验知识。
- 分支数𝑘:𝑘=256时性能最优,过大的𝑘(如512)因标识符过短反而降低效果。
五、结论与价值
科学价值:
- 提出首个行为-语义协同的生成式推荐框架,解决了异构特征融合的挑战。
- 通过两流架构、全局对比和迁移任务,实现了信息独立学习与隐式交互的平衡。
应用价值:
- 为多模态推荐系统提供新思路,可扩展至视觉、音频等模态。
- 开源代码将发布于PapersWithCode,推动工业界落地。
六、研究亮点
方法创新:
- 两流解码器设计避免特征混淆,置信度排序策略提升推理效率。
- 摘要令牌与对比学习结合,增强生成模型的判别能力。
实验贡献:
- 首次在生成式推荐中系统验证行为与语义的互补性。
- 提出三阶段训练目标(生成、对比、迁移),为后续研究提供范式。
七、其他价值
- 可扩展性:框架支持三流架构(如加入视觉语义),在Yelp数据集上Recall@5进一步提升7.1%。
- 计算效率:推理速度(0.0325秒/样本)接近TIGER,参数量(87M)在可接受范围内。
EAGER为生成式推荐系统提供了新的技术路径,其设计理念可启发更复杂的多模态推荐场景研究。