分享自:

Onerec:统一检索与排序的生成式推荐与偏好对齐

期刊:ACMDOI:xxxxxxx.xxxxxxx

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


OneRec:基于生成式推荐与偏好对齐的统一检索排序框架

一、作者与发表信息
该研究由快手公司(Kuaishou Inc.)的Jiaxin Deng、Shiyao Wang、Kuo Cai、Lejian Ren、Qigen Hu、Weifeng Ding、Qiang Luo及通讯作者Guorui Zhou共同完成,发表于会议*Conference Acronym ’XX*(具体会议名称需根据版权确认邮件补充),收录于ACM会议论文集。

二、学术背景
研究领域为生成式推荐系统(Generative Retrieval-based Recommendation Systems, GRS)。传统推荐系统采用“检索-排序”(retrieve-and-rank)的级联架构,存在各阶段独立优化导致性能上限受限的问题。尽管生成式推荐通过自回归生成候选项目(如视频)展现出潜力,但其准确性仍落后于多阶段排序系统。为此,研究团队提出OneRec,首次实现端到端生成模型在工业级推荐场景中超越传统级联系统,核心目标包括:
1. 统一检索与排序阶段,避免级联架构的误差累积;
2. 通过会话级生成(session-wise generation)建模项目间上下文依赖;
3. 结合直接偏好优化(Direct Preference Optimization, DPO)提升生成质量。

三、研究流程与方法
1. 模型架构设计
- 编码器-解码器结构
- 编码器:处理用户历史行为序列(如观看、点赞等),输入为256条历史行为,通过多层自注意力机制提取特征。
- 解码器:采用稀疏专家混合(Sparse Mixture-of-Experts, MoE)结构,包含24个专家网络(FFN),每层仅激活2个专家,实现参数规模(1B)扩展而计算量可控。
- 语义标识符生成:使用多级平衡量化(Balanced K-means Clustering)将视频多模态嵌入转换为3层结构化语义ID(每层8192个聚类中心),解决传统残差量化(RQ-VAE)的“沙漏现象”(hourglass phenomenon)。

  1. 会话级生成策略

    • 定义高质量会话:包含5-10个视频,需满足用户实际观看数≥5、总时长超阈值或存在互动行为(如点赞)。
    • 训练目标:通过交叉熵损失优化语义ID的生成概率,输入序列以[bos]标记分隔会话内视频。与传统“下一项预测”(next-item prediction)相比,会话级生成能自主学习项目间关联性,避免手工规则组合。
  2. 迭代偏好对齐(Iterative Preference Alignment, IPA)

    • 奖励模型(Reward Model, RM):预训练模型评估会话质量,预测指标包括观看时长(SWT)、观看率(VTR)、互动率(WTR/LTR)。
    • 自硬负采样:从波束搜索(beam search)生成的128个候选会话中,选择RM评分最高和最低的样本作为偏好对(chosen/rejected)。
    • DPO优化:仅1%数据用于DPO训练,通过损失函数(公式10)对齐用户偏好,迭代更新模型参数。

四、主要结果
1. 离线实验
- 性能对比:OneRec-1B在最大观看时长(SWT)和点赞率(LTR)上分别比传统点式生成模型Tiger-1B提升1.78%和5.43%。
- DPO效果:1%的DPO样本比例即可提升4.04%的SWT,进一步增加比例收益递减(图4)。
- 模型扩展性:参数从0.05B增至1B时,准确率持续提升(图6),1B模型较0.05B提升14.45%。

  1. 在线A/B测试

    • 在快手主场景部署后,OneRec-1B+IPA实现总观看时长提升1.68%,单次会话平均观看时长提升6.56%(表2)。
  2. 生成动态分析

    • 语义ID生成概率分布显示,IPA策略显著增强模型对高奖励项目的置信度(图5),且层级间熵值递减(第一层6.0→第三层0.048),体现自回归解码的上下文约束效应。

五、结论与价值
1. 科学价值
- 提出首个工业级单阶段生成推荐框架,突破级联系统的性能上限;
- 验证会话级生成和偏好对齐在推荐系统中的必要性,为生成式推荐提供新范式。
2. 应用价值
- 在亿级日活用户的快手平台实现显著收益(1.6% watch-time提升);
- MoE架构实现高效计算(仅13%参数激活),适合大规模部署。

六、研究亮点
1. 方法创新
- 结合MoE与平衡量化的可扩展生成架构;
- 基于RM的自硬负采样策略,解决推荐场景偏好数据稀疏问题。
2. 性能突破:首次证明端到端生成模型可超越复杂级联系统。

七、其他发现
- 交互指标(如点赞)优化仍有局限,未来需探索多目标建模。


此报告完整呈现了研究的创新性、方法论严谨性及工业落地价值,为推荐系统领域提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com