美团工业级生成推荐框架MTGR

分享自：
美团工业级生成推荐框架MTGR

期刊:ACMDOI:10.1145/nnnnnnn.nnnnnnn
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
美团工业级生成式推荐框架MTGR的研究报告一、作者与发表信息本研究由美团（Meituan）的Ruidong Han、Bin Yin、Shangyu Chen等15位研究人员共同完成，发表于arXiv预印本平台（arXiv:2505.18654v3），提交时间为2025年6月20日。
二、学术背景研究领域：推荐系统（Recommendation Systems）与生成式模型（Generative Models）的交叉领域。
 研究动机：
 1. 规模化困境：传统深度学习推荐模型（DLRM, Deep Learning Recommendation Model）在扩展时面临两大瓶颈：
 - 用户行为序列的指数增长导致计算冗余；
 - 特征交互模块（Cross Features）的线性计算成本随候选物品数量增加而激增。
 2. 生成式推荐模型（GRM, Generative Recommendation Model）的局限性：虽然GRM通过Transformer架构实现了高效扩展，但需舍弃手工设计的交叉特征，导致模型性能显著下降。
 研究目标：提出MTGR（Meituan Generative Recommendation）框架，结合DLRM的特征保留能力与GRM的扩展性，实现工业级推荐系统的高效规模化。
三、研究流程与方法1. 数据重组与特征编码输入特征重组：将用户特征（如年龄、性别）、行为序列（历史交互物品）、实时行为（短期交互）及候选物品特征（含交叉特征）统一编码为Token序列。
 
用户级样本聚合：同一用户的多个候选物品聚合为单一样本，减少训练与推理时的计算冗余。例如，用户请求中的𝐾个候选物品被压缩为一个Token序列，推理成本从𝑂(𝐾)降至𝑂(1)。
 
动态掩码策略（Dynamic Masking）：
 静态序列（用户画像、长期行为）对所有Token可见；
 
动态序列（实时行为）仅对后续Token可见；
 
候选物品Token仅对自身可见，避免信息泄漏。
 
2. 模型架构：HSTU与创新模块HSTU（Hierarchical Sequential Transduction Units）架构：基于Transformer的编码器结构，支持长序列建模。
 
组层归一化（GLN, Group-Layer Normalization）：对不同语义域（如用户、物品）的Token分组归一化，解决异构特征分布对齐问题。
 
自注意力优化：通过混合精度训练、算子融合（Operator Fusion）及自定义注意力核（类似FlashAttention）加速计算。
 
3. 训练系统优化动态哈希表（Dynamic Hash Table）：实时处理稀疏嵌入（Sparse Embedding）的插入/删除，替代静态表以提升内存效率。
 
负载均衡：动态调整批次大小（Dynamic Batch Size），解决用户行为序列长尾分布导致的GPU计算不均问题。
 
框架性能：基于TorchRec优化，训练吞吐量提升1.6–2.4倍，支持百级GPU扩展。
 
4. 实验设计数据集：美团外卖平台真实工业数据，包含21亿用户、43亿次曝光，训练集覆盖10天日志，测试集含302万用户。
 
基线模型：对比DLRM（如UserTower-SIM）与GRM变体，评估点击率（CTR）和转化率（CTCVR）。
 
模型规模：
 MTGR-Small（3层，512维）；
 
MTGR-Medium（5层，768维）；
 
MTGR-Large（15层，768维）。
 
四、主要结果离线性能：
 MTGR-Large在CTR（AUC 0.7661）和CTCVR（GAUC 0.6646）上均显著优于DLRM基线（UserTower-SIM），相对提升分别达0.9%和1.47%。
 
消融实验：移除交叉特征导致性能下降至DLRM水平，验证其必要性；动态掩码与GLN的缺失分别使GAUC降低0.2%和0.18%。
 
在线部署：
 MTGR-Large在美团主流量中部署，CTR提升1.31%，转化量增长1.22%，推理成本降低12%。
 
扩展性验证：
 模型性能与计算复杂度呈幂律关系（Scaling Law），FLOPs增加65倍时，效果持续提升且未饱和。
 
五、结论与价值科学价值：
 首次验证推荐系统中特征保留与模型扩展的兼容性，提出通过Token化与动态掩码解决GRM的交叉特征缺失问题。
 
定义工业推荐场景的扩展定律，为后续研究提供基准。
 
应用价值：
 MTGR已支持美团亿级用户请求，成为首个实现Trillion级参数推荐的工业框架。
 
训练成本与DLRM持平，推理效率显著优化，为高并发场景提供解决方案。
 
六、研究亮点方法创新：
 用户级聚合：将𝐾候选物品压缩为单次推理，突破传统DLRM的线性计算瓶颈。
 
动态掩码策略：解决实时行为与候选物品的时序依赖问题，避免信息泄漏。
 
工程贡献：
 开源优化框架（基于TorchRec）支持动态哈希、负载均衡等工业级需求。
 
性能突破：MTGR-Large的65倍FLOPs增长带来近两年最大业务增益，验证生成式推荐的规模化潜力。
 
七、其他价值未来方向：探索多场景统一建模（如推荐基础模型），进一步释放生成式方法的泛化能力。
 
该研究通过系统性的算法与工程优化，为推荐系统的规模化提供了新范式，兼具学术前瞻性与工业落地性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问