分享自:

稀疏与密集的融合:基于级联稀疏-密集表示的统一生成推荐

期刊:ACMDOI:10.1145/nnnnnnn.nnnnnnn

学术研究报告:COBRA框架——稀疏与稠密表征融合的生成式推荐系统

作者与发表信息

本研究的核心作者包括Yuhao Yang、Zhi Ji、Zhaopeng Li等来自百度(Baidu Inc.)的研究团队,论文发表于2025年的ACM会议(具体会议名称未明确标注),标题为《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》。

学术背景

研究领域:本文属于推荐系统领域,聚焦于生成式推荐模型(Generative Recommendation)与稠密检索(Dense Retrieval)方法的融合。传统推荐系统面临两大挑战:
1. 生成式方法(如TIGER)通过预测物品标识符(ID)实现推荐,但离散ID会丢失细粒度语义信息;
2. 稠密检索方法(如SASRec)依赖稠密向量(Dense Vectors)虽能捕捉细节,但存储和计算成本高。

研究目标:提出COBRA(Cascaded Organized Bi-represented Generative Retrieval)框架,通过级联的稀疏ID(Sparse ID)与稠密向量动态生成,结合两类方法的优势,提升推荐精度与多样性。

研究方法与流程

1. 稀疏-稠密级联表征构建

  • 稀疏表征:采用残差量化变分自编码器(RQ-VAE)将物品文本描述(如标题、类别)量化为分层语义ID(3级结构,每级码本大小32),捕捉粗粒度类别信息。
  • 稠密表征:通过可训练的Transformer编码器生成,输入为物品文本(前缀添加[CLS]标记),输出[CLS]对应的稠密向量,保留细粒度属性。
  • 级联表征:将稀疏ID嵌入(Embedding)与稠密向量拼接为序列输入,例如 [e1, v1, e2, v2, ...],其中e_t为ID嵌入,v_t为稠密向量。

2. 序列建模与概率分解

使用Transformer解码器分两阶段预测:
1. 稀疏ID生成:基于历史序列S_{1:t}预测ID_{t+1}的概率分布,公式为:
P(ID_{t+1}|S_{1:t})
2. 稠密向量生成:以ID_{t+1}为条件生成v_{t+1},公式为:
P(v_{t+1}|ID_{t+1}, S_{1:t})
Transformer输入序列依次为历史级联表征(预测ID阶段)和追加新ID嵌入的序列(预测稠密向量阶段)。

3. 端到端训练

联合优化两个损失函数:
- 稀疏ID损失(L_sparse):交叉熵损失,最大化真实ID的似然。
- 稠密向量损失(L_dense):对比学习损失(Contrastive Learning),通过余弦相似度区分正负样本,公式为:
L_dense = -log(exp(cos(v̂_t, v_t)) / Σ exp(cos(v̂_t, v_j)))

4. 推理阶段的粗到细生成

  1. 粗粒度生成:通过束搜索(Beam Search)生成Top-M稀疏ID。
  2. 细粒度优化:将每个ID嵌入后输入模型生成稠密向量,通过近似最近邻(ANN)检索候选物品。
  3. BeamFusion机制:结合束搜索得分与相似度得分(公式:φ = softmax(τϕ) × softmax(ψ cos(v̂, a)))排序,平衡准确性与多样性。

主要结果

公开数据集实验

在Amazon Beauty、Sports、Toys三个子集上的实验结果:
- Beauty数据集:Recall@10达0.0725,比TIGER提升11.9%;NDCG@10达0.0456,提升18.8%。
- Toys数据集:Recall@5达0.0619,显著优于TIGER(0.0521)。

工业数据集验证

百度广告平台数据(200万广告、500万用户)显示:
- COBRA的Recall@500为0.3716,比仅用稠密向量(w/o ID)高42.2%。
- 消融实验:移除BeamFusion导致Recall@800下降36.1%,证明其关键作用。

表征分析

  • 稠密向量可视化:t-SNE显示不同ID的广告聚类明显(如小说、游戏类别),验证稀疏ID引导的语义一致性。
  • 相似度矩阵:COBRA的类内相似度比无ID模型高27%(图4)。

结论与价值

科学价值
1. 提出首个级联稀疏-稠密表征的生成式推荐框架,解决了ID方法的信息丢失问题;
2. 通过BeamFusion机制实现生成与检索的协同,为推荐多样性控制提供新思路。

应用价值
- 在线A/B测试显示,百度广告平台转化率提升3.6%,用户平均收入(ARPU)提升4.15%。

研究亮点

  1. 创新框架:首次将稀疏ID作为稠密向量生成的条件,实现粗到细的推荐生成;
  2. 动态稠密表征:端到端训练的稠密向量优于静态嵌入(如TIGER);
  3. 工业适配性:轻量级架构(1层编码器+2层解码器)适合超大规模场景。

其他发现

  • 参数敏感性:BeamFusion中系数τ=0.9时达到召回率与多样性的最优平衡(图6)。
  • 零样本潜力:稀疏ID的语义结构可能支持跨领域迁移学习,需进一步探索。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com