CTR预测中数值特征的嵌入学习框架

分享自：
CTR预测中数值特征的嵌入学习框架

期刊:Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '21)DOI:10.1145/3447548.3467077
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告：
作者及机构
 本研究的核心作者包括Huifeng Guo、Bo Chen、Ruiming Tang（华为诺亚方舟实验室）、Weinan Zhang（上海交通大学）、Zhenguo Li和Xiuqiang He（华为诺亚方舟实验室）。论文发表于2021年8月的ACM SIGKDD会议（KDD ‘21），标题为《An Embedding Learning Framework for Numerical Features in CTR Prediction》。
学术背景
 点击率预测（Click-Through Rate Prediction, CTR）是推荐系统（Recommender Systems）的核心任务之一，其目标是通过模型预测用户在特定场景下点击推荐内容的概率。当前主流深度CTR模型遵循“嵌入（Embedding）→特征交互（Feature Interaction）”的范式，但现有研究多聚焦于特征交互模块的设计，而忽视了数值型特征（Numerical Features）的嵌入学习。传统方法对数值型特征的处理存在显著缺陷：
 1. 无嵌入方法（No Embedding）直接使用原始数值或简单变换，表达能力有限；
 2. 字段嵌入方法（Field Embedding）为同一字段的所有特征共享单一嵌入，无法区分不同特征值的差异；
 3. 离散化方法（Discretization）依赖人工规则（如等宽分桶EDD或对数分桶LD），导致相似值被分配到不同桶（SBD问题）或差异显著的值被分配到同一桶（DBS问题），且无法端到端优化。
为此，作者提出AutoDis框架，旨在通过元嵌入（Meta-Embeddings）、自动离散化（Automatic Discretization）和聚合（Aggregation）三模块，实现高模型容量、端到端训练且保留数值特征连续性的嵌入学习。
研究流程与方法
 1. 元嵌入设计
 - 目标：为每个数值字段设计一组共享的元嵌入（Meta-Embeddings），以学习字段级别的全局知识。
 - 实现：对第𝑗个数值字段，定义元嵌入矩阵me𝑗 ∈ ℝ^{𝐻𝑗×𝑑}，其中𝐻𝑗为元嵌入数量，𝑑为嵌入维度。元嵌入作为子空间，通过组合提升表达能力，同时控制参数量（如Criteo数据集中𝐻𝑗=20）。
自动离散化模块
核心思想：通过可微分网络实现软离散化（Soft Discretization），避免硬分桶的SBD/DBS问题。
 
技术细节：
 使用两层神经网络（含跳跃连接）将特征值𝑥𝑗投影为𝐻𝑗维向量x̃𝑗：
  h𝑗 = LeakyReLU(W𝑗𝑥𝑗), x̃𝑗 = W𝑗h𝑗 + 𝛼h𝑗 
 
通过温度系数自适应网络（Temperature Coefficient Adaptive Network）动态调整Softmax分布，生成离散化概率x̂𝑗：
  𝑥̂𝑗 = softmax(x̃𝑗/𝜏𝑥𝑗), 𝜏𝑥𝑗 = sigmoid(W₂𝑗 LeakyReLU(W₁𝑗 [n̄𝑗∥𝑥𝑗])) 
 其中n̄𝑗为字段统计特征（如累积分布函数CDF和均值），𝜏𝑥𝑗控制分布平滑度。
 
聚合函数
加权平均（Weighted-Average）：将元嵌入按离散化概率加权求和，生成最终嵌入e𝑗 = ∑𝐻𝑗 ℎ=1 𝑥̂ℎ𝑗 · meℎ𝑗，确保相似特征值获得相近嵌入。
 
对比其他策略：Max-Pooling和Top-K-Sum因硬选择或忽略概率值，性能显著低于加权平均（实验部分AUC提升0.2%~0.3%）。
 
模型训练与部署
损失函数：联合优化CTR模型参数和AutoDis模块，采用对数损失（LogLoss）和L2正则化：
  ℒ = −1/𝑄 ∑(𝑦𝑖 log𝑦̂𝑖 + (1−𝑦𝑖)log(1−𝑦̂𝑖)) + 𝜆∥θ∥² 
 
工业部署：在广告平台中替换传统离散化方法，线上A/B测试显示CTR和eCPM分别提升2.1%和2.7%。
 
主要结果
 1. 基准实验对比
 - 数据集：Criteo（13数值字段）、AutoML（23数值字段）和工业数据集（41数值字段）。
 - 性能指标：AutoDis在DeepFM模型上AUC显著优于最佳基线（Criteo: 0.8152 vs. 0.8138；AutoML: 0.7562 vs. 0.7545）。
 - 消融实验：加权平均聚合策略AUC比Max-Pooling高0.6%（AutoML数据集）。
嵌入可视化分析
t-SNE降维：AutoDis生成的嵌入在空间中连续分布，而EDD方法呈现阶梯状不连续（见图5），验证了“连续但差异”（Continuous-but-Different）的特性。
 
在线效果
商业价值：部署后模型参数量仅增加0.15%，推理延迟增加4.3%，但带来显著收益（eCPM提升对应数百万美元收入）。
 
结论与价值
 1. 科学意义：
 - 首次提出端到端的数值特征嵌入学习框架，解决了传统离散化方法的不可优化性和信息损失问题。
 - 通过元嵌入和软离散化，实现了高容量模型与可控复杂度的平衡。
应用价值：
 兼容性：可无缝集成至Wide & Deep、DCN等主流CTR模型，AUC平均提升0.2%以上。
 
自动化：减少人工设计离散规则的成本，加速新特征上线流程。
 
研究亮点
 1. 方法论创新：
 - 温度系数自适应网络动态调整离散化分布，优于固定温度系数（图9显示AUC提升0.8%）。
 - 加权平均聚合策略理论上解决了SBD/DBS问题，并通过实验验证其最优性。
工程贡献：
 开源代码集成于MindSpore框架，提供标准化实现。
 
其他价值
 - 特征分析：逐字段实验（图7）表明，AutoDis对多数数值字段均有正向效果，且性能增益随字段数增加而累积。
 - 超参数敏感性：元嵌入数量𝐻𝑗需权衡性能与计算成本（建议10~40之间）。
此报告完整覆盖了研究的背景、方法、结果与价值，并突出了其在学术与工业界的双重贡献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问