工业推荐系统中可扩展的长序列建模：LONGER框架

分享自：
工业推荐系统中可扩展的长序列建模：LONGER框架

期刊:Proceedings of the nineteenth ACM conference on recommender systems (RecSys '25)DOI:10.1145/3705328.3748065
基于文本内容判断，此文档属于类型a：单篇原创性研究（学术论文）报告。以下是根据您的要求生成的学术报告。
本文由字节跳动公司的多位研究人员共同完成，主要作者包括Zheng Chai、Qin Ren、Xijun Xiao、Huizhi Yang、Bo Han、Sijun Zhang、Di Chen、Hui Lu、Wenlin Zhao、Lele Yu、Xionghang Xie、Shiru Ren、Xiang Sun、Yaocheng Tan、Peng Xu、Yuchao Zheng、Di Wu等，所属机构均为字节跳动。该项研究已于2025年9月22日至26日在捷克布拉格举行的第十九届ACM推荐系统会议（RecSys ‘25）上发表，相关论文标题为“Longer: Scaling up Long Sequence Modeling in Industrial Recommender Systems”。
一、 研究的学术背景
本研究属于信息科学领域，具体聚焦于工业级推荐系统（Recommender Systems）中的序列建模（Sequence Modeling）问题。在推荐系统中，用户的历史行为序列是理解其长短期偏好的关键信息源。近年来，随着模型与数据规模的增长，长序列建模已成为提升推荐准确性与多样性的重要研究方向。然而，现有处理超长用户行为序列（例如长度超过1000）的主流方法，如两阶段检索（two-stage retrieval）、预训练用户嵌入（pre-trained user embeddings）或记忆增强模型（memory-augmented models），均存在明显的局限性。这些方法要么在上下游任务中存在不一致性，要么因间接建模原始序列而牺牲了信息完整性，同时面临着巨大的计算开销挑战。特别是，直接将Transformer等强大模型应用于超长序列会遭遇二次复杂度（quadratic complexity）带来的算力瓶颈，使其难以在实际工业场景中落地。因此，如何在确保模型性能的同时，实现工业级高效、端到端的超长序列建模，成为该领域亟待解决的核心问题。本研究的首要目标，正是提出一个能够直接在GPU上进行高效计算，并能对长达一万量级序列进行端到端建模的推荐系统架构，以克服现有方法的不足，为下一代序列建模框架提供可行的工业解决方案。
二、 研究的详细工作流程
本研究提出并实现了一个名为“Longer”的推荐系统框架，其核心是一个针对长序列进行优化的、面向GPU高效计算的Transformer模型。研究工作流程主要包括模型架构设计、工程优化以及系统性的实验验证三个核心部分。
首先，在模型架构设计层面，研究团队提出了三个关键技术组件来应对长序列建模的挑战： 1. 全局令牌（Global Token）机制：为了解决长序列注意力稳定性问题并促进全局信息融合，研究者在输入序列中引入了全局令牌。这些令牌可以是目标物品表示、用户ID嵌入或高阶压缩的用户-物品交互特征。它们在整个序列上拥有完整的注意力感受野，能够聚合上下文信号，并作为“注意力锚点”缓解深层网络可能出现的早期令牌注意力过载（Attention Sink）现象。 2. 令牌合并（Token Merge）模块与轻量级内部Transformer（InnerTransformer）：为了从根本上降低Transformer自注意力机制的二次计算复杂度，研究者设计了令牌合并策略。该策略将原始长序列中相邻的K个令牌（Token）进行分组并合并，从而将有效序列长度缩减至原来的1/K，大幅减少了计算量。为了防止简单的合并操作导致组内细粒度信息的丢失，研究者在每个合并组内部引入了一个轻量级的内部Transformer（InnerTransformer）进行局部交互。由于组内序列极短且维度有限，这一操作引入的额外计算开销非常小。 3. 混合注意力（Hybrid Attention）策略：研究者观察到，模型性能对序列令牌的数量存在边际效应，即使用全部序列进行计算并非必要。因此，他们设计了一种混合注意力策略。在模型的第一层，采用交叉因果注意力（Cross Causal-Attention）：将全局令牌（例如候选物品）与从用户长序列中采样出的一部分令牌（例如最近的100个物品）共同构成查询（Query），而原始长序列的所有令牌构成键（Key）和值（Value）。这种设计使得模型能够在第一层就捕捉候选物品与整个长序列中最相关部分的关系，实现信息聚焦。在随后的N层中，则采用标准的自因果注意力（Self Causal-Attention），对经过采样的序列进行更高阶的内部依赖关系建模。这种“先交叉压缩、后自交互”的结构在保证性能的同时显著降低了计算量。
其次，在工程与部署优化层面，为了确保Longer模型能够在拥有十亿级用户的工业场景中有效训练与部署，研究者实施了一系列系统级优化： 1. 完全同步的训练与服务框架：设计了一个统一的训练框架，使密集参数（如Transformer权重）和稀疏参数（如嵌入表）能够完全同步地在GPU集群上进行存储和更新，消除了对外部参数服务器的需求。框架采用了分层的稀疏嵌入存储策略，将高频、中频和低频特征分别存储在GPU高带宽内存（HBM）、CPU主内存和本地固态硬盘中，以平衡访存延迟、吞吐量和容量。 2. 混合精度训练与激活重计算：采用BF16/FP16混合精度训练来减少计算开销和内存占用。同时，通过自定义的梯度机制实现选择性激活重计算（Activation Recomputation），即在反向传播过程中丢弃部分前向传播的中间结果并重新计算，以此牺牲少量算力换取显著的内存节省。 3. KV缓存服务（KV Cache Serving）：针对在线推理场景中需要对同一用户序列计算多个候选物品得分的情况，研究者引入KV缓存机制。由于用户序列在每次请求中保持不变，可以在第一步预先计算并缓存其所有令牌的键（Key）和值（Value）张量。在第二步，对于每个候选物品，只需计算其全局令牌与已缓存的用户序列KV之间的注意力，从而避免了大量重复计算，极大地提升了在线服务的吞吐效率。
最后，在实验验证部分，研究包含了详尽的流程以评估模型的有效性和效率： 1. 研究对象与数据处理：研究基于字节跳动抖音广告系统的真实工业数据集进行验证。该数据集规模巨大，包含2024年10月16日至2025年2月23日期间共130天、约52亿条用户交互样本。每个样本包含用户画像特征、长达数千的超长用户行为序列以及一个候选广告物品。为确保评估的严谨性，研究采用了时间划分策略：前123天数据用于训练，最后7天数据用于离线测试，以防止数据泄露。 2. 对比基准与评价指标：研究将Longer与多个强基线模型进行对比。这些模型涵盖了短序列方法（如仅使用最近50个行为的DIN（Recent50）、Twin）和长序列方法（如全局平均池化（Sumpooling）、处理全序列的DIN、HSTU以及标准的Transformer）。评价指标采用推荐系统二分类任务中常用的AUC（曲线下面积）和对数损失（Logloss）。 3. 实验流程：在离线实验中，所有模型在相同的预处理流程和超参数调优下进行训练和测试。研究者首先评估了Longer相对于基线的整体性能，随后通过消融实验深入分析了其关键组件（如令牌合并、内部Transformer、查询采样策略和数量）的作用效果。此外，研究还进行了系统的规模化分析（Scaling Analysis），考察了模型性能随序列长度、浮点运算次数（FLOPs）和参数数量增长的规律，旨在验证其在工业规模下的扩展潜力。最后，最关键的一步是将Longer模型部署到字节跳动旗下抖音平台的多个核心业务场景中进行在线A/B测试，以衡量其在真实商业环境中的业务影响。测试场景横跨广告平台（按直播、短视频、商城三种广告形式）和电商服务平台（按直播和短视频两种内容形式），分别考察关键业务指标如广告主评分（AdSS）、广告主价值（AdvV）以及每用户订单数（Order/U）、每用户交易总额（GMV/U）。
三、 研究的主要结果
实验结果为Longer模型的有效性和高效性提供了强有力的支持。
整体性能对比：如表1所示，在拥有50多亿样本的工业数据集上，Longer模型在离线测试中取得了最优的AUC（0.85290）和最低的Logloss（0.47103）。与基础模型相比，其AUC相对提升了1.57%。尤为重要的是，相较于标准Transformer模型，Longer不仅取得了0.21%的AUC提升（在工业场景中，0.1%的提升通常已具有显著的商业价值），同时还通过其设计的优化策略大幅降低了计算成本。这一结果验证了Longer在建模能力上的优越性。
消融实验分析：表2中的消融实验细致地揭示了模型各组件的影响。首先，令牌合并被证明是高效的关键。以合并因子K=8（即序列长度压缩为1/8）为例，相较于未使用合并的基线Transformer，其浮点运算次数（FLOPs）从37.3亿降低到30.3亿，而性能（AUC）反而提升了1.58%，实现了显著的算力节省且几乎无损性能。其次，在合并基础上引入内部Transformer（InnerTransformer） 进一步提升了性能，实现了1.63%的AUC提升，证明了捕获组内依赖的重要性。再者，关于混合注意力中的查询数量，实验发现仅对全序列（约2000个）中最近的100个令牌进行采样，即可达到几乎与使用全部250个令牌（经过合并后）相媲美的性能（AUC仅相差0.04%），而计算量却减少了近一半（FLOPs从35.2亿降至19.1亿），这明确了混合注意力策略的有效性。最后，在查询选择策略的对比中，“选择最近100个行为”的策略显著优于“随机初始化学习”或“均匀采样”，这表明近期用户行为对预测意图具有更高信息量。这些结果为模型的架构设计提供了坚实的经验证据。
规模化分析：图4和图5展示了研究中对模型规模扩展规律的探索。研究发现，无论是增加输入序列的长度（图4）、模型的参数量（图5a）还是计算量（FLOPs，图5b），模型的性能（AUC）均呈现幂律增长趋势，这表明Longer模型的性能具有良好的可扩展性。具体来说，增加序列长度能带来持续的收益，这为端到端建模超长序列提供了理论支持；而增加模型参数量或计算资源，即使在固定模型结构下，也能通过提升模型容量或处理更复杂信息来增强性能。这些结论对于指导未来更大规模模型的工业部署具有重要意义。
在线A/B测试：这是衡量模型工业价值的金标准。如表3和表4所示，Longer在多个线上场景均取得了显著的业务指标提升。在抖音广告平台，Longer在直播、短视频和商城三种广告形式下的AdSS和AdvV指标均获得超过1%的增长（如短视频广告AdSS提升2.097%）。在抖音电商服务，模型对直播和短视频内容形式下的订单转化和交易额同样有巨大促进，直播场景的每用户订单数（Order/U）增长高达7.922%，每用户交易额（GMV/U）增长6.540%。这些正向的在线结果强有力地证明了Longer不仅是一个学术上有效的模型，更是一个能在真实产品中带来切实商业价值的技术方案。
四、 研究的结论
本研究的结论是成功提出、实现并验证了Longer——一个用于工业推荐系统中超长用户行为序列端到端建模的高效Transformer框架。该框架的核心贡献在于，它通过全局令牌、令牌合并与内部Transformer、混合注意力等一系列创新性的架构设计，以及完全同步训练、混合精度重计算、KV缓存服务等深入的工程优化，首次将超长序列（高达一万）的端到端建模带入现实工业场景。研究通过大规模离线实验和多个核心业务场景的在线A/B测试，从算法性能和商业价值两个维度全面验证了其有效性与高效性。Longer不仅显著超越了现有的长短序列建模方法，更证明了在推荐系统中遵循类似大语言模型的“规模化定律”是可行且有益的，即通过增加模型和数据规模可以持续获得性能提升。目前，该框架已在字节跳动数十个有影响力的真实场景中完成验证并全面部署，为数亿用户提供服务。
五、 研究的亮点
本研究的亮点突出体现在以下几个方面： 1. 显著的工业突破性：研究成功实现了在工业级推荐系统中对长达一万用户行为序列的端到端建模，解决了现有间接方法（如两阶段检索）导致的信息损失与不一致性问题，是迈向下一代序列建模框架的关键一步。 2. 算法与工程的深度协同：研究不仅提出了创新的模型架构（如Token Merge与Hybrid Attention），还设计了一整套与之匹配的、覆盖训练和服务的系统工程优化方案（如同步框架、KV Cache），确保算法创新能够在实际亿级用户场景中落地并产生商业效益。这种“软硬件协同设计”的思维对工业机器学习研究具有重要示范意义。 3. 详尽的实证与规模化分析：研究不仅通过离线与在线实验全面验证了模型效果，还系统性地探索了模型性能随序列长度、算力、参数规模变化的“规模化定律”，为后续更大规模的模型研发提供了重要的经验指导和数据支撑。 4. 广泛的场景泛化性：模型在抖音广告和电商两大不同类型业务中的A/B测试均取得显著效果，证明了其强大的泛化能力和通用价值，使其具备了作为基础推荐框架的潜力。
六、 其他有价值的内容
该研究论文在相关工作和实验部分还包含了一些值得关注的观点。首先，在相关工作梳理中，作者明确指出当前长序列建模的主流工业实践仍受限于计算约束，并清晰地分类了现有方法（如SIM、Twin、预训练嵌入等）的优缺点。其次，在模型设计的动机阐述中，作者受到StreamLLM等研究的启发，将全局令牌用于稳定长序列注意力，这体现了跨领域（大语言模型与推荐系统）技术思路的借鉴与融合。最后，论文附录中的详细算法流程、计算复杂度公式推导以及大量补充实验结果（如不同配置下的性能曲线），为复现研究和深入理解模型机制提供了宝贵的资料。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问