这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
KEEP框架:基于知识提取与嵌入的工业级在线推荐预训练框架
一、作者与发表信息
本研究由Yujing Zhang、Zhangming Chan(阿里巴巴集团)、Shuhao Xu(清华大学软件学院)等共同完成,发表于CIKM ‘22(第31届ACM国际信息与知识管理会议),会议于2022年10月17-21日在美国亚特兰大举行。论文标题为《KEEP: An Industrial Pre-Training Framework for Online Recommendation via Knowledge Extraction and Plugging》。
二、学术背景
研究领域:在线推荐系统(Online Recommendation)与预训练技术(Pre-Training)。
研究动机:工业级推荐系统通常由多个子系统(如广告、商品、视频推荐)组成,各子系统独立优化导致数据稀疏性(Data Sparsity)问题。例如,淘宝首页广告子系统用户月均仅29次曝光,数据量不足影响模型性能。
背景知识:
1. 跨域推荐(Cross-Domain Recommendation):通过源域(Source Domain)数据辅助目标域(Target Domain)训练,但传统方法(如共享底层架构)难以应对超域(Super-Domain,含海量长期数据)的规模。
2. 预训练-微调(Pre-Training & Fine-Tuning):自然语言处理领域的BERT等模型通过预训练提取通用知识,但直接应用于推荐系统会导致灾难性遗忘(Catastrophic Forgetting),因工业系统需频繁增量训练(如每日更新)。
研究目标:提出KEEP框架,从超域提取知识并嵌入子域(Sub-Domain)任务,提升在线推荐性能,同时避免架构改动与训练效率损失。
三、研究流程与方法
1. 知识提取阶段(Knowledge Extraction)
- 数据来源:超域数据(如淘宝首页全子系统日志),覆盖用户点击、购买、加购行为,规模达580亿次曝光(子域仅21亿次)。
- 模型架构:采用多任务监督预训练(Multi-Task Supervised Pre-Training),基于DIN(Deep Interest Network)结构,共享嵌入层(Embedding Layer),独立MLP层。
- 任务设计:
- 点击预测(Click Prediction):基于曝光数据,优化交叉熵损失(Cross-Entropy Loss)。
- 转化预测(Conversion Prediction)与加购预测(Add-to-Cart Prediction):基于点击数据,引入成对损失(Pairwise Loss)缓解稀疏性。
- 知识输出:提取三类知识——
- 用户级(kᵤ):用户ID嵌入。
- 物品级(kᵢ):物品特征嵌入。
- 用户-物品交互级(kᵤᵢ):MLP倒数第二层输出。
2. 知识嵌入阶段(Knowledge Plugging)
- 插件网络(Plug-in Network):
- 将提取的知识投影至与下游模型第m层MLP输出同维度的向量,通过加法操作(非拼接)融合,避免改变下游架构。
- 优势:支持参数继承、增量训练,且易于扩展新知识。
- 工业部署优化:
- 通用知识中心(GKC, General Knowledge Center):缓存知识,通过分解策略(kᵤ·kᵢ)与退化策略(用品类ID替代物品ID)减少存储压力。
- 版本同步:GKC维护多版本知识,确保与下游模型训练一致性。
四、主要结果
- 离线实验:
- 性能对比:在CTR预测任务中,KEEP的GAUC(Group AUC)较基线(CAN模型)提升0.7%,优于跨域方法(如Conet、DAREc)和预训练方法(如BERT4Rec)。
- 消融实验:
- 仅使用用户级知识(kᵤ)提升GAUC 0.22%,叠加物品级(kᵢ)再提升0.15%,完整知识组合(kᵤ+kᵢ+kᵤᵢ)总提升0.7%。
- 点击预测任务贡献最大(GAUC +0.58%),因其与下游CTR任务目标一致。
- 在线A/B测试:
- 在阿里巴巴广告系统部署后,CTR提升5.4%,RPM(每千次展示收益)提升4.7%。
- 长尾用户受益:行为稀疏用户(月均0-50次点击)GAUC提升0.54%,高于活跃用户(0.31%)。
五、结论与价值
- 科学价值:
- 提出首个面向工业级在线推荐的两阶段知识迁移框架,解决超域数据利用与灾难性遗忘的矛盾。
- 验证监督预训练在推荐系统中的有效性,突破传统自监督预训练的局限性。
- 应用价值:
- GKC设计支持多场景、多任务知识复用,已应用于阿里巴巴广告系统,日均处理千亿级请求。
- 插件网络与增量训练的兼容性为工业系统提供可扩展解决方案。
六、研究亮点
- 方法创新:
- 加法融合机制:避免下游模型架构改动,支持无缝参数继承。
- 分解-退化策略:降低知识缓存存储开销90%以上。
- 规模验证:
- 实验覆盖2年超域数据(580亿样本),验证框架在极端数据规模下的可行性。
七、其他价值
- 开源工具:基于XDL2平台实现,支持分布式训练与实时推理。
- 跨领域启示:GKC的设计可迁移至其他需知识共享的时序建模场景(如搜索排序)。
该研究为工业级推荐系统提供了一套兼顾性能与工程可行性的完整解决方案,其核心思想(知识解耦与轻量嵌入)对后续研究具有重要参考意义。