分享自:

大规模推荐中端到端检索结构的学习

期刊:Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM '21)DOI:10.1145/3459637.3482362

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


作者与机构
本研究的核心作者包括Weihao Gao、Xiangjun Fan、Chong Wang等来自字节跳动(Bytedance Inc.)的研究团队,其他合作者包括Jiankai Sun、Kai Jia等。研究发表于2021年11月的第30届ACM国际信息与知识管理会议(CIKM ‘21),论文标题为《Learning an End-to-End Structure for Retrieval in Large-Scale Recommendations》。


学术背景
研究领域为大规模推荐系统中的候选检索(candidate retrieval)技术。传统推荐系统通常采用两阶段流程:先学习内积模型(inner-product model),再通过近似最近邻搜索(Approximate Nearest Neighbor, ANN)算法检索候选。但这种方法存在两大缺陷:(1) 内积模型可能无法充分捕捉用户-物品交互的复杂结构;(2) ANN算法仅近似内积模型,而非直接优化用户交互数据。
本研究提出了一种名为“深度检索”(Deep Retrieval, DR)的端到端结构,旨在直接从用户-物品交互数据(如点击)中学习可检索的离散隐空间(discrete latent space),无需依赖ANN的欧氏空间假设。其目标是实现亚线性时间复杂度的精准检索,并解决传统方法在工业级规模(数亿物品)下的性能瓶颈。


研究流程与方法
1. 模型设计
- 结构框架:DR采用𝐾×𝐷的矩阵结构(𝐾为宽度,𝐷为深度),将物品编码为长度为𝐷的路径(path),每条路径对应一个离散隐空间的簇。路径概率通过多层感知机(MLP)逐层计算,用户嵌入(embedding)与路径嵌入的联合输入生成分层概率分布。
- 多路径扩展:允许每个物品映射到𝐽条路径(如𝐽=3),以捕捉物品的多方面属性(如“食物”和“礼物”双标签)。
- 惩罚机制:通过凸函数𝑓(|𝑐|)(如𝑓(|𝑐|)=|𝑐|⁴/4)惩罚路径分配的不均衡性,避免所有物品坍缩到单一路径。

  1. 训练与优化

    • EM风格算法
      • E步:固定物品-路径映射𝜋,通过梯度优化最大化目标函数𝑄pen(𝜃,𝜋)。
      • M步:基于流式估计(streaming estimation)更新路径分配,使用坐标下降法(coordinate descent)优化物品的路径选择。
    • 多任务学习:联合训练DR模型与Softmax重排模型,解决路径内物品不可区分性问题。
  2. 推理阶段

    • 束搜索(Beam Search):以𝑂(𝐷𝐾𝐵 log𝐵)复杂度检索Top-𝐵路径(𝐵为束宽),显著降低计算成本(如实验显示比暴力检索快4倍)。
  3. 实验验证

    • 公开数据集:在MovieLens-20M(2万物品)和Amazon Books(147万物品)上,DR的召回率(Recall@200)分别达10.89%和13.74%,接近暴力检索(Brute-force)的精度。
    • 工业级测试:在字节跳动生产系统中,DR相比调优的ANN基线(如HNSW),用户观看完成率提升3.0%,次日留存率提升0.036%。

主要结果与逻辑关联
1. 性能对比:DR在公开数据集上F1分数(F-measure@200)达1.63,与暴力检索(1.63)持平,但计算效率显著更高(0.266ms vs 1.064ms)。
2. 超参数分析:深度𝐷=3时模型性能最优;多路径数𝐽>1可提升召回率(如𝐽=3时Recall@200提升1.5%)。
3. 工业价值:DR的流式训练特性使其适合动态更新的UGC(用户生成内容)场景,10分钟内可完成数亿物品的路径更新。


结论与价值
1. 科学价值:DR首次实现了非ANN算法在数亿规模推荐系统中的成功部署,证明了离散隐空间直接学习用户交互的可行性。
2. 应用价值
- 多样性提升:DR路径基于用户行为而非物品特征,增强了长尾物品的曝光(如小众创作者视频)。
- 计算效率:亚线性复杂度使其适合实时推荐场景。


研究亮点
1. 方法创新
- 提出端到端的离散隐空间学习框架,摆脱对ANN的依赖。
- 多路径设计与惩罚机制解决了传统树模型(如TDM)的数据稀疏问题。
2. 规模突破:首次在工业级系统(数亿物品)验证非ANN检索的可行性。
3. 开源贡献:实验代码与超参数细节(如𝛼=3×10⁻⁷)为后续研究提供基准。


其他价值
- 生态友好性:DR提升了冷启动物品的推荐公平性,有助于平台内容生态的健康增长。
- 可扩展性:框架支持替换更复杂的重排模型(如对比学习),为未来优化预留空间。

(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com