分享自:

一种服务于多领域点击率预测的星型拓扑自适应推荐模型

期刊:ACMDOI:10.1145/3459637.3481941

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


阿里巴巴团队提出STAR模型:面向多业务域的点击率预测统一框架

一、作者与发表信息
本研究的核心作者团队来自阿里巴巴集团(Alibaba Group),包括Xiang-Rong Sheng、Liqin Zhao(并列一作)、Guorui Zhou等10位研究者。论文《One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction》发表于2021年11月的ACM国际信息与知识管理会议(CIKM ‘21),是推荐系统领域的顶级会议论文之一。

二、研究背景与目标
1. 科学领域:研究属于工业级推荐系统(Recommender System)与多域学习(Multi-Domain Learning)交叉领域,聚焦点击率预测(CTR Prediction)这一核心问题。
2. 研究动机:传统推荐系统通常针对单一业务域(如电商首页的“猜你喜欢”或广告横幅)独立训练模型,但实际平台(如淘宝)包含数十个业务域,各域用户行为和数据分布存在差异性与共性。若独立训练模型会导致数据碎片化,而混合训练则难以捕捉域特异性(Domain-Specific Characteristics)。
3. 研究目标:提出一种统一模型框架STAR(Star Topology Adaptive Recommender),实现“一个模型服务所有业务域”,同时解决以下挑战:
- 跨域共性学习(如用户兴趣迁移)
- 域特异性建模(如不同域的点击率分布差异)
- 工业级部署的效率和成本约束

三、研究方法与流程
研究分为四个核心环节,涉及算法设计、训练优化和在线部署:

  1. STAR拓扑网络架构

    • 共享中心网络(Shared Centered FCN):所有业务域共用同一组底层参数,学习跨域通用特征(如用户基础画像)。
    • 域特异性网络(Domain-Specific FCN):每个业务域拥有独立的参数组,通过逐层权重元素乘积(Element-wise Multiplication)与共享网络结合,动态调整模型行为。例如,第𝑝域的最终权重𝑊★𝑝=𝑊𝑝⊗𝑊,其中𝑊为共享权重,𝑊𝑝为域特异性权重。
    • 参数量控制:仅全连接层(FCN)参数分域设计,嵌入层(Embedding)共享以降低内存开销(工业场景中嵌入层参数占比超99%)。
  2. 分区归一化(Partitioned Normalization, PN)

    • 问题:传统批归一化(Batch Normalization, BN)假设数据独立同分布,但多域数据分布差异显著。
    • 解决方案:PN为每个域维护独立的均值和方差统计量,并引入域特异性缩放(𝛾𝑝)和偏置(𝛽𝑝)。归一化公式为:
      [ z’ = (\gamma \otimes \gamma_p)\frac{z-\mu}{\sqrt{\sigma^2+\epsilon}} + (\beta + \beta_p) ]
    • 效果:在训练和推理阶段均使用域专属统计量,提升域内特征校准精度。
  3. 辅助网络(Auxiliary Network)

    • 设计动机:显式强化模型对业务域标识(Domain Indicator)的感知能力。
    • 实现:将域标识作为ID特征输入轻量级两层全连接网络,输出与主网络预测结果相加。此设计直接引导模型区分域间差异。
  4. 训练与部署优化

    • 数据管道:采用滑动窗口缓冲池(Sliding Window Buffer)平衡各域样本比例,避免实时流量波动导致的训练不稳定。
    • 在线服务:预计算各域权重𝑊★𝑝,使推理耗时与单域模型持平。

四、实验结果与发现
1. 离线实验(阿里巴巴生产数据集)
- 数据集:覆盖19个业务域,包含数十亿样本,各域CTR差异显著(最低1.27%,最高12.03%)。
- 基线对比:STAR在整体AUC(Area Under Curve)上较基线模型提升1.42%(0.6506 vs. 0.6364),且在所有域均取得最优效果(见表2)。例如:
- 高CTR域(如#15):AUC提升2.76%(0.7021 vs. 0.6745)
- 低CTR域(如#13):AUC提升1.81%(0.6739 vs. 0.6558)
- 消融实验
- PN替换BN后,AUC提升1.21%(0.6485 vs. 0.6364)
- 移除辅助网络导致所有域性能平均下降0.8%

  1. 在线A/B测试
    • 指标:在阿里巴巴广告系统部署后,STAR实现:
      • 点击率(CTR)提升8.0%
      • 千次展示收入(RPM)提升6.0%
    • 校准性:PCoC(Predicted CTR over CTR)更接近1.0(图7),证明模型能精准捕捉域间CTR分布差异。

五、研究结论与价值
1. 理论贡献
- 提出首个基于星型拓扑的多域CTR预测框架,通过参数分解实现“共性学习”与“特性建模”的协同优化。
- 证明分区归一化(PN)在多域学习中的必要性,为后续研究提供新方向。

  1. 工业价值
    • 效率:仅增加%参数量即可服务60+业务域,显著降低计算和运维成本。
    • 通用性:框架可扩展至其他多域任务(如转化率预测),已开源至阿里深度学习框架XDL。

六、研究亮点
1. 方法创新
- 星型拓扑参数组合策略(Element-wise Product)优于传统多任务学习(如MMoE的专家混合)。
- 首次将域标识作为显式特征输入,通过辅助网络增强域感知。
2. 工程突破
- 设计滑动窗口缓冲池解决多域数据实时分布漂移问题。
- 预计算权重实现与单域模型同等的推理速度。

七、其他价值
论文提供了完整的工业部署细节(如数据管道设计),为学术界与工业界的协作树立了标杆。STAR自2020年部署后持续服务淘宝主流量,验证了其长期稳定性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com