这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
KEEP框架:基于知识提取与嵌入的工业级在线推荐预训练框架
1. 作者与发表信息
本研究由Yujing Zhang、Zhangming Chan(阿里巴巴集团)、Shuhao Xu(清华大学软件学院)等共同完成,发表于CIKM ‘22(第31届ACM国际信息与知识管理会议),会议于2022年10月17–21日在美国亚特兰大举行。论文标题为《KEEP: An Industrial Pre-training Framework for Online Recommendation via Knowledge Extraction and Plugging》。
2. 学术背景
科学领域:本研究属于推荐系统领域,聚焦于工业级在线推荐场景中的数据稀疏性问题。
研究动机:工业推荐系统通常由多个子系统组成(如电商平台中的商品、视频、广告推荐),各子系统独立优化,仅使用自身反馈数据。这种数据隔离导致用户行为数据稀疏(例如,广告子系统平均每月仅29次曝光/用户),进而影响模型性能。
背景知识:现有解决方案(如跨域推荐CDR)通过共享源域(source-domain)数据缓解稀疏性,但传统方法依赖耦合架构(如共享底层网络),难以扩展到包含海量数据的超域(super-domain)(如全网级长期曝光数据)。此外,预训练-微调(pre-training-fine-tuning)机制在频繁更新的在线推荐系统中易引发灾难性遗忘(catastrophic forgetting)。
研究目标:提出KEEP框架,通过两阶段(知识提取+知识嵌入)实现超域知识迁移,同时避免模型架构改动,适配工业系统的增量训练需求。
3. 研究流程与方法
阶段一:知识提取(Knowledge Extraction)
- 数据来源:超域数据(如淘宝首页推荐系统的全网曝光日志),覆盖多子系统(商品、视频、广告等),规模达580亿次曝光(对比子域数据仅21亿次)。
- 模型架构:采用多任务监督预训练,基于DIN(Deep Interest Network)模型,输入包括用户ID、行为序列、商品ID等特征,输出层为4层MLP(维度512-256-128-64-2)。
- 预训练任务:
- 点击预测(click prediction):基于曝光日志,优化交叉熵损失(公式1)。
- 转化预测(conversion prediction)与加购预测(add-to-cart prediction):基于点击日志,引入混合损失(公式3),结合点对(pointwise)和成对(pairwise)损失(公式2),缓解稀疏标签问题。
- 知识形式:提取三类知识:
- 用户级知识(kᵤ):用户ID嵌入。
- 物品级知识(kᵢ):商品特征嵌入。
- 用户-物品交互知识(kᵤᵢ):MLP倒数第二层输出,分任务提取(点击、转化、加购)。
阶段二:知识嵌入(Knowledge Plugging)
- 下游任务:子域模型(如广告CTR预测)基于CAN(Co-Action Network)架构,通过插件网络(plug-in network)融合超域知识。
- 嵌入方式:
- 投影对齐:将知识k(ᵤ,ᵢ)通过浅层MLP投影为与下游模型第m层MLP输出(hₘ)同维度的向量hₖ。
- 加法融合:hₘ’ = hₘ + hₖ(非拼接操作),避免改变模型架构,支持参数继承与增量训练。
- 工业优化:
- 通用知识中心(GKC):缓存知识以减少实时计算开销,采用分解策略(将kᵤᵢ拆分为k̂ᵤ·k̂ᵢ)和退化策略(用商品类目替代商品ID)降低存储需求(从nᵤ×nᵢ降至nᵤ+nᵢ+nᵤc)。
- 版本控制:GKC维护多版本知识,确保离线训练与在线推理的一致性。
4. 主要结果
离线实验
- 性能对比:在淘宝广告数据集上,KEEP的GAUC(Group AUC)较基线模型(CAN)提升0.7%,优于跨域方法(如Conet、Darec)和预训练方法(如BERT4Rec、S3-Rec)。
- 消融实验:
- 知识类型:同时使用kᵤ、kᵢ、kᵤᵢ时效果最佳(GAUC +0.7%)。
- 预训练任务:点击任务贡献最大(+0.58%),多任务联合进一步提升(+0.12%)。
- 数据规模:预训练数据从1个月增至2年,GAUC持续提升(+0.0042)。
线上部署
- A/B测试:在阿里巴巴广告系统中,KEEP实现CTR提升5.4%、RPM(每千次展示收入)提升4.7%。
- 长尾用户收益:行为稀疏用户(0-50次点击)的GAUC提升0.54%,显著高于活跃用户(>300次点击的+0.31%)。
5. 结论与价值
科学价值:
- 提出首个面向工业级在线推荐的两阶段知识迁移框架,解决了超域数据利用与频繁更新的矛盾。
- 验证了监督预训练在推荐系统中的有效性,优于自监督方法。
应用价值:
- GKC服务支持多场景、多任务模型的知识复用,已部署于阿里巴巴广告系统。
- 插件网络设计为工业系统的增量训练提供了通用解决方案。
6. 研究亮点
- 超域建模创新:首次将超域(1728曝光/用户)引入推荐系统,数据量较跨域(236曝光/用户)提升7倍。
- 灾难性遗忘规避:通过插件网络而非微调机制,兼容在线学习的频繁更新需求。
- 工业级优化:GKC的分解与退化策略将知识存储量降低至千分之一,线上延迟仅增加1毫秒。
7. 其他价值
- 开源工具:实验基于阿里巴巴自研框架XDL2,支持大规模分布式训练。
- 方法论普适性:KEEP框架可扩展至其他行为预测任务(如CVR、加购预测)。
以上报告完整覆盖了研究的背景、方法、结果与价值,重点突出了其工业落地的创新性和技术细节。