分享自:

基于生成预训练的判别式推荐Transformer扩展

期刊:Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data MiningDOI:10.1145/3711896.3737117

阿里巴巴国际数字商业集团的Chunqi Wang、Bingchao Wu、Zheng Chen、Lei Shen、Bing Wang和Xiaoyi Zeng等研究人员在2025年ACM SIGKDD知识发现与数据挖掘会议(KDD ‘25)上发表了一篇题为《Scaling Transformers for Discriminative Recommendation via Generative Pretraining》的研究论文。该研究针对工业级推荐系统中判别式模型(discriminative model)面临的过拟合问题,提出了一种名为GPSD(Generative Pretraining for Scalable Discriminative Recommendation)的创新框架,通过生成式预训练(generative pretraining)和稀疏参数冻结策略显著提升了Transformer架构在推荐任务中的可扩展性。

学术背景

推荐系统通常分为召回(retrieval)和排序(ranking)两阶段,其中排序阶段依赖判别式模型(如CTR点击率预测、CVR转化率预测模型)。然而,这类模型面临数据稀疏性导致的严重过拟合问题,且模型规模增大时性能反而下降。传统方法(如正则化)效果有限,而生成式模型(如基于Transformer的序列预测)因通过随机负采样缓解稀疏性问题,表现出更好的稳定性。本研究旨在探索生成式预训练如何赋能判别式推荐模型,并验证Transformer架构在推荐任务中的缩放规律(scaling laws)。

研究流程与方法

1. 生成式预训练阶段

  • 任务设计:基于用户行为序列数据(如点击商品序列),训练Transformer模型以自回归(autoregressive)方式预测下一项。采用采样Softmax损失(sampled softmax)替代传统Softmax以降低计算开销。
  • 模型架构:采用改进的Transformer,包括预归一化(pre-normalization)、RMSNorm、旋转位置编码(RoPE)和SWiLU激活函数。支持双向(BERT风格)或单向(GPT风格)训练,默认选择单向以提升推理效率。
  • 特征整合:除商品ID外,融合类别ID等辅助特征,通过嵌入求和输入模型,并联合预测多特征目标。

2. 判别式训练阶段

  • 任务适配:将用户行为序列与候选商品拼接为输入,添加分段嵌入(segment embedding)区分二者,并引入MLP头处理其他类别/数值特征。
  • 参数迁移策略:提出五种迁移方案:
    • NT(无迁移):从头训练所有参数;
    • FT(全迁移):迁移生成式模型全部参数;
    • ST(稀疏迁移):仅迁移嵌入层参数;
    • FT&SF(全迁移+稀疏冻结):迁移全部参数并冻结嵌入层;
    • ST&SF(稀疏迁移+稀疏冻结):仅迁移并冻结嵌入层。实验表明ST&SF和FT&SF效果最佳,尤其在大规模数据集上。

3. 实验验证

  • 数据集:使用工业级数据集(如CTR-XL,50亿样本)和公开数据集(Taobao、Amazon)。
  • 过拟合分析:发现判别式模型存在两类过拟合:
    • Epoch间过拟合(one-epoch overfitting): epoch切换时性能骤降;
    • Epoch内过拟合(within-one-epoch overfitting):首epoch内验证集性能停滞。生成式模型则无此现象。
  • 性能对比:ST&SF策略在CTR任务中使AUC提升4.63%-12.37%,且模型规模从130万参数扩展至3亿参数时性能持续提升,符合幂律规律(power law)。
  • 跨架构迁移:将生成式预训练的稀疏参数迁移至HSTU和Wukong等非Transformer架构,同样显著提升其扩展性。

主要结果

  1. 过拟合缓解:FT&SF和ST&SF策略将训练与验证AUC差距缩小至恒定小值(图4),解决了传统判别式模型的过拟合问题。
  2. 缩放规律:在CTR-XL数据集上,模型密集参数从13k增至0.3B时,AUC从0.6306提升至0.7018,损失从0.3922降至0.3732,符合幂律拟合(图5)。
  3. 在线效果:在AliExpress推荐系统中部署GPSD框架(L3H160A4模型),GMV(总交易额)提升7.03%,CTR提升3.78%。

结论与价值

  1. 科学价值:首次系统揭示推荐模型中两类过拟合现象,并提出通过生成式预训练和参数冻结解决的通用框架。
  2. 技术贡献:证明Transformer在推荐任务中可遵循与语言模型类似的缩放规律,为统一推荐与自然语言处理架构奠定基础。
  3. 应用价值:工业级实验验证了GPSD在提升模型性能和扩展性上的有效性,代码已开源(GitHub仓库:chqiwang/gpsd-rec)。

研究亮点

  • 创新方法:首次将生成式预训练与稀疏参数冻结结合,解决判别式推荐的核心瓶颈。
  • 跨架构普适性:生成的稀疏参数可迁移至不同架构(如HSTU),展现强兼容性。
  • 规模化验证:实验覆盖13k至0.3B参数规模,为推荐系统的超大规模训练提供实证依据。

其他价值

研究还探讨了增量训练(incremental-GPSD)和双向/单向Transformer的优劣,为工业部署提供灵活选择。未来可探索更长序列建模及开源大语言模型(如LLaMA)参数迁移至推荐系统的可能性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com