分享自:

CTR预测中数值特征的嵌入学习框架

期刊:Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '21)DOI:10.1145/3447548.3467077

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


作者及机构
本研究的核心作者包括Huifeng Guo、Bo Chen、Ruiming Tang(华为诺亚方舟实验室)、Weinan Zhang(上海交通大学)、Zhenguo Li和Xiuqiang He(华为诺亚方舟实验室)。论文发表于2021年8月的ACM SIGKDD会议(KDD ‘21),标题为《An Embedding Learning Framework for Numerical Features in CTR Prediction》。

学术背景
点击率预测(Click-Through Rate Prediction, CTR)是推荐系统(Recommender Systems)的核心任务之一,其目标是通过模型预测用户在特定场景下点击推荐内容的概率。当前主流深度CTR模型遵循“嵌入(Embedding)→特征交互(Feature Interaction)”的范式,但现有研究多聚焦于特征交互模块的设计,而忽视了数值型特征(Numerical Features)的嵌入学习。传统方法对数值型特征的处理存在显著缺陷:
1. 无嵌入方法(No Embedding)直接使用原始数值或简单变换,表达能力有限;
2. 字段嵌入方法(Field Embedding)为同一字段的所有特征共享单一嵌入,无法区分不同特征值的差异;
3. 离散化方法(Discretization)依赖人工规则(如等宽分桶EDD或对数分桶LD),导致相似值被分配到不同桶(SBD问题)或差异显著的值被分配到同一桶(DBS问题),且无法端到端优化。

为此,作者提出AutoDis框架,旨在通过元嵌入(Meta-Embeddings)自动离散化(Automatic Discretization)聚合(Aggregation)三模块,实现高模型容量、端到端训练且保留数值特征连续性的嵌入学习。

研究流程与方法
1. 元嵌入设计
- 目标:为每个数值字段设计一组共享的元嵌入(Meta-Embeddings),以学习字段级别的全局知识。
- 实现:对第𝑗个数值字段,定义元嵌入矩阵me𝑗 ∈ ℝ^{𝐻𝑗×𝑑},其中𝐻𝑗为元嵌入数量,𝑑为嵌入维度。元嵌入作为子空间,通过组合提升表达能力,同时控制参数量(如Criteo数据集中𝐻𝑗=20)。

  1. 自动离散化模块

    • 核心思想:通过可微分网络实现软离散化(Soft Discretization),避免硬分桶的SBD/DBS问题。
    • 技术细节
      • 使用两层神经网络(含跳跃连接)将特征值𝑥𝑗投影为𝐻𝑗维向量x̃𝑗:
        h𝑗 = LeakyReLU(W𝑗𝑥𝑗), x̃𝑗 = W𝑗h𝑗 + 𝛼h𝑗
      • 通过温度系数自适应网络(Temperature Coefficient Adaptive Network)动态调整Softmax分布,生成离散化概率x̂𝑗:
        𝑥̂𝑗 = softmax(x̃𝑗/𝜏𝑥𝑗), 𝜏𝑥𝑗 = sigmoid(W₂𝑗 LeakyReLU(W₁𝑗 [n̄𝑗∥𝑥𝑗]))
        其中n̄𝑗为字段统计特征(如累积分布函数CDF和均值),𝜏𝑥𝑗控制分布平滑度。
  2. 聚合函数

    • 加权平均(Weighted-Average):将元嵌入按离散化概率加权求和,生成最终嵌入e𝑗 = ∑𝐻𝑗 ℎ=1 𝑥̂ℎ𝑗 · meℎ𝑗,确保相似特征值获得相近嵌入。
    • 对比其他策略:Max-Pooling和Top-K-Sum因硬选择或忽略概率值,性能显著低于加权平均(实验部分AUC提升0.2%~0.3%)。
  3. 模型训练与部署

    • 损失函数:联合优化CTR模型参数和AutoDis模块,采用对数损失(LogLoss)和L2正则化:
      ℒ = −1/𝑄 ∑(𝑦𝑖 log𝑦̂𝑖 + (1−𝑦𝑖)log(1−𝑦̂𝑖)) + 𝜆∥θ∥²
    • 工业部署:在广告平台中替换传统离散化方法,线上A/B测试显示CTR和eCPM分别提升2.1%和2.7%。

主要结果
1. 基准实验对比
- 数据集:Criteo(13数值字段)、AutoML(23数值字段)和工业数据集(41数值字段)。
- 性能指标:AutoDis在DeepFM模型上AUC显著优于最佳基线(Criteo: 0.8152 vs. 0.8138;AutoML: 0.7562 vs. 0.7545)。
- 消融实验:加权平均聚合策略AUC比Max-Pooling高0.6%(AutoML数据集)。

  1. 嵌入可视化分析

    • t-SNE降维:AutoDis生成的嵌入在空间中连续分布,而EDD方法呈现阶梯状不连续(见图5),验证了“连续但差异”(Continuous-but-Different)的特性。
  2. 在线效果

    • 商业价值:部署后模型参数量仅增加0.15%,推理延迟增加4.3%,但带来显著收益(eCPM提升对应数百万美元收入)。

结论与价值
1. 科学意义
- 首次提出端到端的数值特征嵌入学习框架,解决了传统离散化方法的不可优化性和信息损失问题。
- 通过元嵌入和软离散化,实现了高容量模型与可控复杂度的平衡。

  1. 应用价值
    • 兼容性:可无缝集成至Wide & Deep、DCN等主流CTR模型,AUC平均提升0.2%以上。
    • 自动化:减少人工设计离散规则的成本,加速新特征上线流程。

研究亮点
1. 方法论创新
- 温度系数自适应网络动态调整离散化分布,优于固定温度系数(图9显示AUC提升0.8%)。
- 加权平均聚合策略理论上解决了SBD/DBS问题,并通过实验验证其最优性。

  1. 工程贡献
    • 开源代码集成于MindSpore框架,提供标准化实现。

其他价值
- 特征分析:逐字段实验(图7)表明,AutoDis对多数数值字段均有正向效果,且性能增益随字段数增加而累积。
- 超参数敏感性:元嵌入数量𝐻𝑗需权衡性能与计算成本(建议10~40之间)。


此报告完整覆盖了研究的背景、方法、结果与价值,并突出了其在学术与工业界的双重贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com