这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
OneRec:基于生成式推荐与偏好对齐的统一检索排序框架
一、作者与发表信息
该研究由快手公司(Kuaishou Inc.)的Jiaxin Deng、Shiyao Wang、Kuo Cai、Lejian Ren、Qigen Hu、Weifeng Ding、Qiang Luo及通讯作者Guorui Zhou共同完成,发表于会议*Conference Acronym ’XX*(具体会议名称需根据版权确认邮件补充),收录于ACM会议论文集。
二、学术背景
研究领域为生成式推荐系统(Generative Retrieval-based Recommendation Systems, GRS)。传统推荐系统采用“检索-排序”(retrieve-and-rank)的级联架构,存在各阶段独立优化导致性能上限受限的问题。尽管生成式推荐通过自回归生成候选项目(如视频)展现出潜力,但其准确性仍落后于多阶段排序系统。为此,研究团队提出OneRec,首次实现端到端生成模型在工业级推荐场景中超越传统级联系统,核心目标包括:
1. 统一检索与排序阶段,避免级联架构的误差累积;
2. 通过会话级生成(session-wise generation)建模项目间上下文依赖;
3. 结合直接偏好优化(Direct Preference Optimization, DPO)提升生成质量。
三、研究流程与方法
1. 模型架构设计
- 编码器-解码器结构:
- 编码器:处理用户历史行为序列(如观看、点赞等),输入为256条历史行为,通过多层自注意力机制提取特征。
- 解码器:采用稀疏专家混合(Sparse Mixture-of-Experts, MoE)结构,包含24个专家网络(FFN),每层仅激活2个专家,实现参数规模(1B)扩展而计算量可控。
- 语义标识符生成:使用多级平衡量化(Balanced K-means Clustering)将视频多模态嵌入转换为3层结构化语义ID(每层8192个聚类中心),解决传统残差量化(RQ-VAE)的“沙漏现象”(hourglass phenomenon)。
会话级生成策略
[bos]标记分隔会话内视频。与传统“下一项预测”(next-item prediction)相比,会话级生成能自主学习项目间关联性,避免手工规则组合。迭代偏好对齐(Iterative Preference Alignment, IPA)
四、主要结果
1. 离线实验
- 性能对比:OneRec-1B在最大观看时长(SWT)和点赞率(LTR)上分别比传统点式生成模型Tiger-1B提升1.78%和5.43%。
- DPO效果:1%的DPO样本比例即可提升4.04%的SWT,进一步增加比例收益递减(图4)。
- 模型扩展性:参数从0.05B增至1B时,准确率持续提升(图6),1B模型较0.05B提升14.45%。
在线A/B测试
生成动态分析
五、结论与价值
1. 科学价值:
- 提出首个工业级单阶段生成推荐框架,突破级联系统的性能上限;
- 验证会话级生成和偏好对齐在推荐系统中的必要性,为生成式推荐提供新范式。
2. 应用价值:
- 在亿级日活用户的快手平台实现显著收益(1.6% watch-time提升);
- MoE架构实现高效计算(仅13%参数激活),适合大规模部署。
六、研究亮点
1. 方法创新:
- 结合MoE与平衡量化的可扩展生成架构;
- 基于RM的自硬负采样策略,解决推荐场景偏好数据稀疏问题。
2. 性能突破:首次证明端到端生成模型可超越复杂级联系统。
七、其他发现
- 交互指标(如点赞)优化仍有局限,未来需探索多目标建模。
此报告完整呈现了研究的创新性、方法论严谨性及工业落地价值,为推荐系统领域提供了重要参考。