分享自:

深度检索:学习可检索结构用于大规模推荐系统

期刊:ACMDOI:10.1145/nnnnnnn.nnnnnnn

这篇文档属于类型a,即报告了一项原创研究。以下是对该研究的学术报告:

作者与机构
本研究的主要作者包括Weihao Gao、Xiangjun Fan、Chong Wang、Jiankai Sun、Kai Jia、Wenzhi Xiao、Ruofan Ding、Xingyan Bin、Hui Yang和Xiaobing Liu,他们均来自字节跳动公司(Bytedance Inc.)。该研究发表于2021年,具体期刊信息未明确提及,但文档中提到了ACM(Association for Computing Machinery)的出版格式。

学术背景
该研究属于机器学习与推荐系统领域。在大规模推荐系统中,核心问题是如何高效且准确地检索出最相关的候选项目,通常需要在亚线性时间内完成。传统方法通常分为两步:首先学习一个内积模型,然后使用近似最近邻搜索(Approximate Nearest Neighbor, ANN)算法找到候选项目。然而,这些方法存在两个主要缺点:一是用户与项目嵌入的内积结构可能不足以捕捉复杂的用户-项目交互;二是ANN或MIPS(Maximum Inner Product Search)算法旨在近似学习到的内积模型,而不是直接针对用户-项目交互数据进行优化。为了解决这些问题,作者提出了深度检索(Deep Retrieval, DR)模型,直接从用户-项目交互数据中学习可检索的结构,而无需依赖ANN算法中的欧几里得空间假设。

研究流程
1. 模型设计
DR模型的核心是一个𝐾×𝐷的矩阵,用于索引所有候选项目。每个项目被编码到一个离散的潜在空间中,这些潜在代码作为模型参数与其他神经网络参数一起学习,以最大化相同的目标函数。模型训练完成后,使用波束搜索(Beam Search)在结构上检索出最相关的候选项目进行重排序。
模型的主要特点包括:
- DR模型用于“检索”而非“排序”,因此不存在“叶节点”,项目在路径内无法区分,从而缓解了数据稀疏问题。
- 每个项目可以被多个路径索引,这意味着两个项目可以共享某些路径但在其他路径上不同,这种多对多的编码方案显著区别于传统的树结构设计。

  1. 训练与优化
    在训练过程中,项目路径作为模型参数与其他神经网络参数一起学习,使用期望最大化(Expectation-Maximization, EM)类型的算法进行优化。具体步骤包括:

    • E步:固定项目路径映射𝜋,使用梯度优化器优化模型参数𝜃以最大化结构目标函数。
    • M步:更新项目路径映射𝜋以最大化相同的结构目标函数。
      为了确保路径的多样性,作者引入了一个惩罚函数,防止所有项目被分配到单一路径。
  2. 波束搜索与推理
    在推理阶段,给定用户嵌入作为输入,使用波束搜索算法检索出最可能的路径。波束搜索的时间复杂度为𝑂(𝐷𝐾𝐵 log𝐵),相对于项目总数𝑉是亚线性的。

  3. 多任务学习与重排序
    DR模型与一个重排序模型(如Softmax模型)联合训练,以进一步优化候选项目的排序效果。

主要结果
1. 公开数据集实验
研究在两个公开数据集(MovieLens-20M和Amazon Books)上验证了DR模型的性能。实验结果表明,DR模型在亚线性计算复杂度下,几乎可以达到与暴力搜索(Brute-Force)基线相同的准确性。此外,DR模型在推理速度上显著优于暴力搜索,例如在Amazon Books数据集上,DR的推理时间是暴力搜索的四分之一。

  1. 生产环境实验
    在一个拥有数亿用户和项目的生产推荐系统中,DR模型在关键用户参与指标(如视频完成率、应用浏览时间和次日留存率)上显著优于经过良好调优的ANN基线。实验结果表明,DR模型能够更好地捕捉用户行为信息,尤其对不太受欢迎的视频或创作者更为友好。

结论
DR模型是一种端到端可学习的大规模推荐系统结构模型,能够直接从用户-项目交互数据中学习可检索的结构。研究表明,DR模型在公开数据集和生产环境中均表现出色,能够在亚线性时间内高效检索出相关候选项目,并显著提升用户参与度。DR模型的成功部署标志着其在工业推荐系统中的重要应用价值。

研究亮点
1. DR模型首次在大规模工业推荐系统中成功应用,处理了数亿级别的项目。
2. DR模型通过多对多的路径编码方案,显著提升了检索的灵活性和准确性。
3. DR模型在推理速度和用户参与度上均优于传统ANN方法,展示了其在实际应用中的巨大潜力。

其他有价值的内容
DR模型的训练过程天然适合流式训练(Streaming Training),且构建检索结构的时间远少于ANN方法。此外,DR模型对不太受欢迎的项目更为友好,有助于平台创作者生态系统的健康发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com