分享自:

美团工业级生成推荐框架MTGR

期刊:ACMDOI:10.1145/nnnnnnn.nnnnnnn

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


美团工业级生成式推荐框架MTGR的研究报告

一、作者与发表信息

本研究由美团(Meituan)的Ruidong HanBin YinShangyu Chen等15位研究人员共同完成,发表于arXiv预印本平台(arXiv:2505.18654v3),提交时间为2025年6月20日。

二、学术背景

研究领域:推荐系统(Recommendation Systems)与生成式模型(Generative Models)的交叉领域。
研究动机
1. 规模化困境:传统深度学习推荐模型(DLRM, Deep Learning Recommendation Model)在扩展时面临两大瓶颈:
- 用户行为序列的指数增长导致计算冗余;
- 特征交互模块(Cross Features)的线性计算成本随候选物品数量增加而激增。
2. 生成式推荐模型(GRM, Generative Recommendation Model)的局限性:虽然GRM通过Transformer架构实现了高效扩展,但需舍弃手工设计的交叉特征,导致模型性能显著下降。
研究目标:提出MTGR(Meituan Generative Recommendation)框架,结合DLRM的特征保留能力与GRM的扩展性,实现工业级推荐系统的高效规模化。

三、研究流程与方法

1. 数据重组与特征编码
  • 输入特征重组:将用户特征(如年龄、性别)、行为序列(历史交互物品)、实时行为(短期交互)及候选物品特征(含交叉特征)统一编码为Token序列。
  • 用户级样本聚合:同一用户的多个候选物品聚合为单一样本,减少训练与推理时的计算冗余。例如,用户请求中的𝐾个候选物品被压缩为一个Token序列,推理成本从𝑂(𝐾)降至𝑂(1)。
  • 动态掩码策略(Dynamic Masking)
    • 静态序列(用户画像、长期行为)对所有Token可见;
    • 动态序列(实时行为)仅对后续Token可见;
    • 候选物品Token仅对自身可见,避免信息泄漏。
2. 模型架构:HSTU与创新模块
  • HSTU(Hierarchical Sequential Transduction Units)架构:基于Transformer的编码器结构,支持长序列建模。
  • 组层归一化(GLN, Group-Layer Normalization):对不同语义域(如用户、物品)的Token分组归一化,解决异构特征分布对齐问题。
  • 自注意力优化:通过混合精度训练、算子融合(Operator Fusion)及自定义注意力核(类似FlashAttention)加速计算。
3. 训练系统优化
  • 动态哈希表(Dynamic Hash Table):实时处理稀疏嵌入(Sparse Embedding)的插入/删除,替代静态表以提升内存效率。
  • 负载均衡:动态调整批次大小(Dynamic Batch Size),解决用户行为序列长尾分布导致的GPU计算不均问题。
  • 框架性能:基于TorchRec优化,训练吞吐量提升1.6–2.4倍,支持百级GPU扩展。
4. 实验设计
  • 数据集:美团外卖平台真实工业数据,包含21亿用户、43亿次曝光,训练集覆盖10天日志,测试集含302万用户。
  • 基线模型:对比DLRM(如UserTower-SIM)与GRM变体,评估点击率(CTR)和转化率(CTCVR)。
  • 模型规模
    • MTGR-Small(3层,512维);
    • MTGR-Medium(5层,768维);
    • MTGR-Large(15层,768维)。

四、主要结果

  1. 离线性能
    • MTGR-Large在CTR(AUC 0.7661)和CTCVR(GAUC 0.6646)上均显著优于DLRM基线(UserTower-SIM),相对提升分别达0.9%和1.47%。
    • 消融实验:移除交叉特征导致性能下降至DLRM水平,验证其必要性;动态掩码与GLN的缺失分别使GAUC降低0.2%和0.18%。
  2. 在线部署
    • MTGR-Large在美团主流量中部署,CTR提升1.31%,转化量增长1.22%,推理成本降低12%。
  3. 扩展性验证
    • 模型性能与计算复杂度呈幂律关系(Scaling Law),FLOPs增加65倍时,效果持续提升且未饱和。

五、结论与价值

  1. 科学价值
    • 首次验证推荐系统中特征保留与模型扩展的兼容性,提出通过Token化与动态掩码解决GRM的交叉特征缺失问题。
    • 定义工业推荐场景的扩展定律,为后续研究提供基准。
  2. 应用价值
    • MTGR已支持美团亿级用户请求,成为首个实现Trillion级参数推荐的工业框架。
    • 训练成本与DLRM持平,推理效率显著优化,为高并发场景提供解决方案。

六、研究亮点

  1. 方法创新
    • 用户级聚合:将𝐾候选物品压缩为单次推理,突破传统DLRM的线性计算瓶颈。
    • 动态掩码策略:解决实时行为与候选物品的时序依赖问题,避免信息泄漏。
  2. 工程贡献
    • 开源优化框架(基于TorchRec)支持动态哈希、负载均衡等工业级需求。
  3. 性能突破:MTGR-Large的65倍FLOPs增长带来近两年最大业务增益,验证生成式推荐的规模化潜力。

七、其他价值

  • 未来方向:探索多场景统一建模(如推荐基础模型),进一步释放生成式方法的泛化能力。

该研究通过系统性的算法与工程优化,为推荐系统的规模化提供了新范式,兼具学术前瞻性与工业落地性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com