大规模推荐中端到端检索结构的学习

分享自：
大规模推荐中端到端检索结构的学习

期刊:Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM '21)DOI:10.1145/3459637.3482362
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告：
作者与机构
 本研究的核心作者包括Weihao Gao、Xiangjun Fan、Chong Wang等来自字节跳动（Bytedance Inc.）的研究团队，其他合作者包括Jiankai Sun、Kai Jia等。研究发表于2021年11月的第30届ACM国际信息与知识管理会议（CIKM ‘21），论文标题为《Learning an End-to-End Structure for Retrieval in Large-Scale Recommendations》。
学术背景
 研究领域为大规模推荐系统中的候选检索（candidate retrieval）技术。传统推荐系统通常采用两阶段流程：先学习内积模型（inner-product model），再通过近似最近邻搜索（Approximate Nearest Neighbor, ANN）算法检索候选。但这种方法存在两大缺陷：(1) 内积模型可能无法充分捕捉用户-物品交互的复杂结构；(2) ANN算法仅近似内积模型，而非直接优化用户交互数据。
 本研究提出了一种名为“深度检索”（Deep Retrieval, DR）的端到端结构，旨在直接从用户-物品交互数据（如点击）中学习可检索的离散隐空间（discrete latent space），无需依赖ANN的欧氏空间假设。其目标是实现亚线性时间复杂度的精准检索，并解决传统方法在工业级规模（数亿物品）下的性能瓶颈。
研究流程与方法
 1. 模型设计
 - 结构框架：DR采用𝐾×𝐷的矩阵结构（𝐾为宽度，𝐷为深度），将物品编码为长度为𝐷的路径（path），每条路径对应一个离散隐空间的簇。路径概率通过多层感知机（MLP）逐层计算，用户嵌入（embedding）与路径嵌入的联合输入生成分层概率分布。
 - 多路径扩展：允许每个物品映射到𝐽条路径（如𝐽=3），以捕捉物品的多方面属性（如“食物”和“礼物”双标签）。
 - 惩罚机制：通过凸函数𝑓(|𝑐|)（如𝑓(|𝑐|)=|𝑐|⁴/4）惩罚路径分配的不均衡性，避免所有物品坍缩到单一路径。
训练与优化
EM风格算法：
 E步：固定物品-路径映射𝜋，通过梯度优化最大化目标函数𝑄pen(𝜃,𝜋)。
 
M步：基于流式估计（streaming estimation）更新路径分配，使用坐标下降法（coordinate descent）优化物品的路径选择。
 
多任务学习：联合训练DR模型与Softmax重排模型，解决路径内物品不可区分性问题。
推理阶段
束搜索（Beam Search）：以𝑂(𝐷𝐾𝐵 log𝐵)复杂度检索Top-𝐵路径（𝐵为束宽），显著降低计算成本（如实验显示比暴力检索快4倍）。
实验验证
公开数据集：在MovieLens-20M（2万物品）和Amazon Books（147万物品）上，DR的召回率（Recall@200）分别达10.89%和13.74%，接近暴力检索（Brute-force）的精度。
 
工业级测试：在字节跳动生产系统中，DR相比调优的ANN基线（如HNSW），用户观看完成率提升3.0%，次日留存率提升0.036%。
主要结果与逻辑关联
 1. 性能对比：DR在公开数据集上F1分数（F-measure@200）达1.63，与暴力检索（1.63）持平，但计算效率显著更高（0.266ms vs 1.064ms）。
 2. 超参数分析：深度𝐷=3时模型性能最优；多路径数𝐽>1可提升召回率（如𝐽=3时Recall@200提升1.5%）。
 3. 工业价值：DR的流式训练特性使其适合动态更新的UGC（用户生成内容）场景，10分钟内可完成数亿物品的路径更新。
结论与价值
 1. 科学价值：DR首次实现了非ANN算法在数亿规模推荐系统中的成功部署，证明了离散隐空间直接学习用户交互的可行性。
 2. 应用价值：
 - 多样性提升：DR路径基于用户行为而非物品特征，增强了长尾物品的曝光（如小众创作者视频）。
 - 计算效率：亚线性复杂度使其适合实时推荐场景。
研究亮点
 1. 方法创新：
 - 提出端到端的离散隐空间学习框架，摆脱对ANN的依赖。
 - 多路径设计与惩罚机制解决了传统树模型（如TDM）的数据稀疏问题。
 2. 规模突破：首次在工业级系统（数亿物品）验证非ANN检索的可行性。
 3. 开源贡献：实验代码与超参数细节（如𝛼=3×10⁻⁷）为后续研究提供基准。
其他价值
 - 生态友好性：DR提升了冷启动物品的推荐公平性，有助于平台内容生态的健康增长。
 - 可扩展性：框架支持替换更复杂的重排模型（如对比学习），为未来优化预留空间。
（报告总字数：约1800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问