Onerec：统一检索与排序的生成式推荐与偏好对齐

分享自：
Onerec：统一检索与排序的生成式推荐与偏好对齐

期刊:ACMDOI:xxxxxxx.xxxxxxx
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
OneRec：基于生成式推荐与偏好对齐的统一检索排序框架
一、作者与发表信息
 该研究由快手公司（Kuaishou Inc.）的Jiaxin Deng、Shiyao Wang、Kuo Cai、Lejian Ren、Qigen Hu、Weifeng Ding、Qiang Luo及通讯作者Guorui Zhou共同完成，发表于会议*Conference Acronym ’XX*（具体会议名称需根据版权确认邮件补充），收录于ACM会议论文集。
二、学术背景
 研究领域为生成式推荐系统（Generative Retrieval-based Recommendation Systems, GRS）。传统推荐系统采用“检索-排序”（retrieve-and-rank）的级联架构，存在各阶段独立优化导致性能上限受限的问题。尽管生成式推荐通过自回归生成候选项目（如视频）展现出潜力，但其准确性仍落后于多阶段排序系统。为此，研究团队提出OneRec，首次实现端到端生成模型在工业级推荐场景中超越传统级联系统，核心目标包括：
 1. 统一检索与排序阶段，避免级联架构的误差累积；
 2. 通过会话级生成（session-wise generation）建模项目间上下文依赖；
 3. 结合直接偏好优化（Direct Preference Optimization, DPO）提升生成质量。
三、研究流程与方法
 1. 模型架构设计
 - 编码器-解码器结构：
 - 编码器：处理用户历史行为序列（如观看、点赞等），输入为256条历史行为，通过多层自注意力机制提取特征。
 - 解码器：采用稀疏专家混合（Sparse Mixture-of-Experts, MoE）结构，包含24个专家网络（FFN），每层仅激活2个专家，实现参数规模（1B）扩展而计算量可控。
 - 语义标识符生成：使用多级平衡量化（Balanced K-means Clustering）将视频多模态嵌入转换为3层结构化语义ID（每层8192个聚类中心），解决传统残差量化（RQ-VAE）的“沙漏现象”（hourglass phenomenon）。
会话级生成策略
定义高质量会话：包含5-10个视频，需满足用户实际观看数≥5、总时长超阈值或存在互动行为（如点赞）。
 
训练目标：通过交叉熵损失优化语义ID的生成概率，输入序列以[bos]标记分隔会话内视频。与传统“下一项预测”（next-item prediction）相比，会话级生成能自主学习项目间关联性，避免手工规则组合。
 
迭代偏好对齐（Iterative Preference Alignment, IPA）
奖励模型（Reward Model, RM）：预训练模型评估会话质量，预测指标包括观看时长（SWT）、观看率（VTR）、互动率（WTR/LTR）。
 
自硬负采样：从波束搜索（beam search）生成的128个候选会话中，选择RM评分最高和最低的样本作为偏好对（chosen/rejected）。
 
DPO优化：仅1%数据用于DPO训练，通过损失函数（公式10）对齐用户偏好，迭代更新模型参数。
 
四、主要结果
 1. 离线实验
 - 性能对比：OneRec-1B在最大观看时长（SWT）和点赞率（LTR）上分别比传统点式生成模型Tiger-1B提升1.78%和5.43%。
 - DPO效果：1%的DPO样本比例即可提升4.04%的SWT，进一步增加比例收益递减（图4）。
 - 模型扩展性：参数从0.05B增至1B时，准确率持续提升（图6），1B模型较0.05B提升14.45%。
在线A/B测试
在快手主场景部署后，OneRec-1B+IPA实现总观看时长提升1.68%，单次会话平均观看时长提升6.56%（表2）。
 
生成动态分析
语义ID生成概率分布显示，IPA策略显著增强模型对高奖励项目的置信度（图5），且层级间熵值递减（第一层6.0→第三层0.048），体现自回归解码的上下文约束效应。
 
五、结论与价值
 1. 科学价值：
 - 提出首个工业级单阶段生成推荐框架，突破级联系统的性能上限；
 - 验证会话级生成和偏好对齐在推荐系统中的必要性，为生成式推荐提供新范式。
 2. 应用价值：
 - 在亿级日活用户的快手平台实现显著收益（1.6% watch-time提升）；
 - MoE架构实现高效计算（仅13%参数激活），适合大规模部署。
六、研究亮点
 1. 方法创新：
 - 结合MoE与平衡量化的可扩展生成架构；
 - 基于RM的自硬负采样策略，解决推荐场景偏好数据稀疏问题。
 2. 性能突破：首次证明端到端生成模型可超越复杂级联系统。
七、其他发现
 - 交互指标（如点赞）优化仍有局限，未来需探索多目标建模。
此报告完整呈现了研究的创新性、方法论严谨性及工业落地价值，为推荐系统领域提供了重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问