这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
美团工业级生成式推荐框架MTGR的研究报告
一、作者与发表信息
本研究由美团(Meituan)的Ruidong Han、Bin Yin、Shangyu Chen等15位研究人员共同完成,发表于arXiv预印本平台(arXiv:2505.18654v3),提交时间为2025年6月20日。
二、学术背景
研究领域:推荐系统(Recommendation Systems)与生成式模型(Generative Models)的交叉领域。
研究动机:
1. 规模化困境:传统深度学习推荐模型(DLRM, Deep Learning Recommendation Model)在扩展时面临两大瓶颈:
- 用户行为序列的指数增长导致计算冗余;
- 特征交互模块(Cross Features)的线性计算成本随候选物品数量增加而激增。
2. 生成式推荐模型(GRM, Generative Recommendation Model)的局限性:虽然GRM通过Transformer架构实现了高效扩展,但需舍弃手工设计的交叉特征,导致模型性能显著下降。
研究目标:提出MTGR(Meituan Generative Recommendation)框架,结合DLRM的特征保留能力与GRM的扩展性,实现工业级推荐系统的高效规模化。
三、研究流程与方法
1. 数据重组与特征编码
- 输入特征重组:将用户特征(如年龄、性别)、行为序列(历史交互物品)、实时行为(短期交互)及候选物品特征(含交叉特征)统一编码为Token序列。
- 用户级样本聚合:同一用户的多个候选物品聚合为单一样本,减少训练与推理时的计算冗余。例如,用户请求中的𝐾个候选物品被压缩为一个Token序列,推理成本从𝑂(𝐾)降至𝑂(1)。
- 动态掩码策略(Dynamic Masking):
- 静态序列(用户画像、长期行为)对所有Token可见;
- 动态序列(实时行为)仅对后续Token可见;
- 候选物品Token仅对自身可见,避免信息泄漏。
2. 模型架构:HSTU与创新模块
- HSTU(Hierarchical Sequential Transduction Units)架构:基于Transformer的编码器结构,支持长序列建模。
- 组层归一化(GLN, Group-Layer Normalization):对不同语义域(如用户、物品)的Token分组归一化,解决异构特征分布对齐问题。
- 自注意力优化:通过混合精度训练、算子融合(Operator Fusion)及自定义注意力核(类似FlashAttention)加速计算。
3. 训练系统优化
- 动态哈希表(Dynamic Hash Table):实时处理稀疏嵌入(Sparse Embedding)的插入/删除,替代静态表以提升内存效率。
- 负载均衡:动态调整批次大小(Dynamic Batch Size),解决用户行为序列长尾分布导致的GPU计算不均问题。
- 框架性能:基于TorchRec优化,训练吞吐量提升1.6–2.4倍,支持百级GPU扩展。
4. 实验设计
- 数据集:美团外卖平台真实工业数据,包含21亿用户、43亿次曝光,训练集覆盖10天日志,测试集含302万用户。
- 基线模型:对比DLRM(如UserTower-SIM)与GRM变体,评估点击率(CTR)和转化率(CTCVR)。
- 模型规模:
- MTGR-Small(3层,512维);
- MTGR-Medium(5层,768维);
- MTGR-Large(15层,768维)。
四、主要结果
- 离线性能:
- MTGR-Large在CTR(AUC 0.7661)和CTCVR(GAUC 0.6646)上均显著优于DLRM基线(UserTower-SIM),相对提升分别达0.9%和1.47%。
- 消融实验:移除交叉特征导致性能下降至DLRM水平,验证其必要性;动态掩码与GLN的缺失分别使GAUC降低0.2%和0.18%。
- 在线部署:
- MTGR-Large在美团主流量中部署,CTR提升1.31%,转化量增长1.22%,推理成本降低12%。
- 扩展性验证:
- 模型性能与计算复杂度呈幂律关系(Scaling Law),FLOPs增加65倍时,效果持续提升且未饱和。
五、结论与价值
- 科学价值:
- 首次验证推荐系统中特征保留与模型扩展的兼容性,提出通过Token化与动态掩码解决GRM的交叉特征缺失问题。
- 定义工业推荐场景的扩展定律,为后续研究提供基准。
- 应用价值:
- MTGR已支持美团亿级用户请求,成为首个实现Trillion级参数推荐的工业框架。
- 训练成本与DLRM持平,推理效率显著优化,为高并发场景提供解决方案。
六、研究亮点
- 方法创新:
- 用户级聚合:将𝐾候选物品压缩为单次推理,突破传统DLRM的线性计算瓶颈。
- 动态掩码策略:解决实时行为与候选物品的时序依赖问题,避免信息泄漏。
- 工程贡献:
- 开源优化框架(基于TorchRec)支持动态哈希、负载均衡等工业级需求。
- 性能突破:MTGR-Large的65倍FLOPs增长带来近两年最大业务增益,验证生成式推荐的规模化潜力。
七、其他价值
- 未来方向:探索多场景统一建模(如推荐基础模型),进一步释放生成式方法的泛化能力。
该研究通过系统性的算法与工程优化,为推荐系统的规模化提供了新范式,兼具学术前瞻性与工业落地性。