DiffGRM:基于扩散的生成式推荐模型
一、 作者、机构与发表信息
本研究由来自快手科技(Kuaishou Technology)的Zhao Liu、Yichen Zhu、Yiqing Yang、Xiao Lv、Guoping Tang、Rui Huang、Qiang Luo、Ruiming Tang和Guorui Zhou共同完成。该研究以题为“diffgrm: diffusion-based generative recommendation model”的论文形式,发表于2026年4月13日至17日在阿拉伯联合酋长国迪拜举行的第15届国际万维网大会(The ACM Web Conference 2026,简称WWW ‘26)的会议论文集。该论文已收录于ACM数字图书馆,并获得了知识共享署名4.0国际许可。
二、 学术背景与研究目的
本研究属于信息检索与推荐系统领域,具体聚焦于生成式推荐这一新兴范式。生成式推荐的核心思想是将推荐任务转化为序列生成问题:首先,通过一个分词器将每个物品映射为一个固定长度的语义ID;然后,基于用户的历史交互序列,自回归地生成下一个物品的语义ID。
然而,现有的生成式推荐模型主要依赖自回归模型。作者指出,语义ID的两个固有结构特性使得自回归模型存在局限性: 1. 物品内一致性:语义ID的多个数字位共同指定一个唯一的物品。但自回归模型从左到右的因果生成方式,使得每个数字位只能基于其前缀信息进行训练和预测,无法利用来自其右侧数字位的双向交叉验证信息,导致监督信号被限制在单一的因果路径上。 2. 数字位间异质性:语义ID的不同数字位编码了不同粒度的语义信息,其预测难度也各不相同。但自回归模型均匀的“下一个token”预测目标,对所有数字位施加了同等的监督权重,这导致容易预测的“简单数字位”被过度训练,而难以预测的“困难数字位”则训练不足。
为了克服这些挑战,本研究旨在探索一种新的生成范式。研究团队受到离散扩散模型在自然语言处理领域快速发展的启发,提出了用掩码扩散模型替代自回归解码器的思路。扩散模型天然支持双向上下文建模和并行生成,能够提供更丰富的监督信号。因此,本研究的目标是设计并实现一个名为DiffGRM的、基于扩散的生成式推荐模型,以更好地适配语义ID的结构特性,提升推荐性能。
三、 研究流程与详细方法
本研究系统地构建了DiffGRM模型,其工作流程涵盖三个核心层面:分词化、训练和推理。
1. 分词化层面:并行语义编码 * 研究内容:如何将物品内容特征(如文本、图像)转化为语义ID序列。 * 方法与处理:传统的生成式推荐模型常使用残差量化(如RQ-VAE),这会引入数字位间的残差依赖关系,强化了从左到右的偏置,不利于并行预测。为解决此问题,DiffGRM采用了并行语义编码。首先,使用预训练的语言模型将物品内容特征编码为连续向量。然后,学习一个正交旋转矩阵来优化量化效果,并将旋转后的向量均匀分割成n个子向量。最后,每个子向量独立地通过其专属的码本进行量化,得到一个n位的语义ID。这种方法解耦了数字位间的依赖,平衡了每个数字位承载的信息量,为后续的并行扩散生成奠定了基础。
2. 训练层面:基于策略的连贯噪声注入 * 研究内容:如何高效地训练掩码扩散解码器。 * 问题与挑战:推荐系统的物品库庞大且长尾分布严重。如果采用标准的随机掩码策略,监督信号会非常稀疏且分散。更关键的是,对于一个n位的语义ID,理论上存在n * 2^(n-1)种不同的“目标数字位-上下文”监督信号对。枚举所有可能的掩码模式(至少需要2^n - 1种)以覆盖所有信号是不现实的。 * 创新方法:为此,作者提出了OCN。OCN的核心思想是,根据模型当前自身的预测不确定性(即“策略”)来决定对哪些数字位进行掩码,而不是随机选择。具体流程如下: a. 不确定性评估:对于给定的用户历史序列,模型首先在一个完全被掩码的语义ID上进行一次“探测”前向传播,得到模型对每个数字位的预测概率分布。 b. 难度排序:计算每个数字位的预测置信度(最高概率值),置信度越低则难度越高。根据难度对所有数字位进行降序排序。 c. 连贯掩码:按照一个从“轻度掩码”到“重度掩码”的进度表,依次构建R个不同的“视图”。在视图r中,只掩码难度排名最高的前m_r个数字位,而保持其他数字位可见(使用其真实的嵌入)。这样,所有视图的掩码集合是嵌套的,随着视图推进,可见的上下文逐渐增多,但被掩码的始终是模型当前认为最不确定的那些“困难数字位”。 d. 损失计算:对每个视图,计算所有被掩码数字位的交叉熵损失,并对所有视图的损失进行平均作为最终训练目标。 * 优势:OCN将有限的训练预算集中在了信息价值最高的监督信号上(即预测困难的位置),避免了随机掩码带来的监督信号指数级分散问题,显著提升了训练效率和模型对困难样本的学习能力。
3. 推理层面:置信度引导的并行去噪 * 研究内容:如何利用训练好的扩散模型生成多样且准确的Top-K推荐候选列表。 * 方法与处理:标准的离散扩散模型推理通常采用贪婪解码,只产生一个最优输出。但推荐任务需要返回一个多样化的候选集。为此,DiffGRM设计了CPD算法,这是一种全局并行束搜索方法。 a. 初始化:从完全掩码的序列开始,利用编码器输出的用户历史信息,计算模型对所有可能数字位取值的初始置信度得分。 b. 迭代填充:在每一步去噪迭代中,算法维护一个大小为B_act的活跃束。对于束中的每个部分完成的语义ID分支,模型评估所有仍被掩码的数字位,计算填充每个可能值后的得分(累积对数概率)。 c. 置信度引导:算法并非按固定顺序(如从左到右)填充数字位,而是选择当前所有分支中“数字位-值”对置信度最高的组合进行填充。这允许模型根据当前上下文动态决定先确定哪个位置的信息。 d. 束剪枝与完成:每一步保留得分最高的B_act个新分支。重复此过程,直到所有数字位都被填充,得到一个完整的语义ID序列。最终,对生成的所有序列进行去重,并按最终得分排序返回Top-K个候选。
四、 主要实验结果与分析
研究在三个公开的亚马逊评论数据集上进行了实验验证。
1. 整体性能对比 * 实验设置:在Sports、Beauty和Toys三个数据集上,将DiffGRM与三大类基线模型进行对比:基于物品ID的判别式模型、语义增强的判别式模型以及基于语义ID的生成式模型。评估指标为Recall@K和NDCG@K。 * 结果与数据:DiffGRM在12个评估指标中的11个上取得了最佳性能。相较于最强的基线模型,在NDCG@10指标上分别提升了15.53%(Sports)、8.19%(Beauty)和6.94%(Toys)。在Recall@10指标上,Sports和Beauty数据集分别提升了10.00%和8.28%,Toys数据集略降4.03%,但NDCG指标仍全面领先。 * 分析与逻辑:这些结果强有力地证明了DiffGRM框架的有效性。性能提升主要归因于:1)掩码扩散训练提供了更密集的双向监督信号;2)OCN策略优化了监督信号的分配;3)CPD推理能够生成高质量且多样化的候选集。实验结果直接回应了研究背景中提出的问题,证实了用扩散模型替代自回归模型以解决“物品内一致性”和“数字位间异质性”挑战的可行性。
2. OCN有效性验证 * 实验设计:为了验证OCN在有限训练预算下的效率,作者引入了“有效样本通过次数”的概念,并与一种简单的“k倍连贯路径噪声注入”基线进行对比。后者通过重复采样k条固定的掩码路径来增加监督信号。 * 结果与数据:实验表明,随着k增大(即监督信号增多),基线方法性能提升,但所需的计算代价(ESP)也线性增加。相比之下,DiffGRM采用的OCN策略在相同甚至更低的ESP下,达到了与之相当或更优的性能。 * 分析与逻辑:该实验证明,OCN通过智能地选择对困难数字位进行掩码,能够更高效地利用训练样本,将计算资源集中在最需要学习的部分,从而实现了更高的样本效率。这支持了OCN设计初衷:在无法枚举所有掩码模式的情况下,选择性聚焦于高价值信号是关键。
3. 消融实验 * 实验设计:通过系统性地移除或替换DiffGRM的关键组件,评估每个组件的贡献。 * 结果与数据: * PSE vs RQ:将PSE替换为残差量化方法(RQ-kmeans)导致性能显著下降,证实了消除数字位间依赖对于并行扩散生成的重要性。 * OCN vs 随机掩码:移除OCN(即使用随机掩码)性能大幅下降,说明OCN的针对性噪声策略至关重要。 * OCN vs 静态连贯掩码:保留连贯掩码但移除“基于策略”的选择(即固定掩码最难的位置),性能优于随机掩码但仍低于完整OCN,说明根据模型实时不确定性动态调整掩码策略是有效的。 * CPD vs 随机顺序束搜索:用固定随机顺序的束搜索替代CPD,性能也出现下降,证明了置信度引导的动态填充顺序对于生成优质候选集的价值。
4. 进一步分析 * OCN策略分析:对比了“掩码最不自信位”与“掩码最自信位”、“静态排序”与“每步刷新排序”四种组合。结果表明,“掩码最不自信位+静态排序”的组合(即DiffGRM所用)效果最好。刷新排序会干扰训练稳定性,而掩码最自信位则违背了聚焦困难样本的原则。 * CPD束大小分析:增大束搜索的宽度(Beam Size)能够持续提升NDCG@10性能,这与束搜索缓解局部最优问题的理论一致。 * 语义编码器分析:使用更大、更强的预训练语言模型作为语义编码器,能进一步提升DiffGRM的性能,表明模型捕捉语义信息的能力是其成功的基础之一。
五、 研究结论与价值
本研究的核心结论是提出并验证了DiffGRM,这是首个将掩码离散扩散模型应用于生成式推荐任务的框架。它通过并行语义编码解耦语义ID的数字位依赖,通过基于策略的连贯噪声注入实现高效、聚焦的训练,并通过置信度引导的并行去噪生成多样化的Top-K推荐结果。
科学价值:该研究揭示了自回归生成范式与语义ID结构特性之间的根本性错配,并创新性地引入了扩散模型这一新范式来解决该问题。它深化了人们对生成式推荐中序列表示与生成机制之间关系的理解,为推荐系统领域提供了新的建模思路。
应用价值:DiffGRM在多个公开基准数据集上取得了显著的性能提升,证明了其在实际推荐场景中的有效性和优越性。其并行生成特性也具备潜在的速度优势。该框架为构建下一代高效、精准的生成式推荐系统提供了可行的技术方案。
六、 研究亮点
七、 其他有价值内容
论文在附录和讨论部分还提供了更多有价值的信息,例如:对自回归模型与掩码扩散模型可学习监督信号数量的理论对比分析;模型训练和推理复杂度的详细推导,表明DiffGRM在工业级长序列场景下与自回归模型的计算开销相近;开源了代码以促进复现和后续研究。这些内容增强了研究的严谨性和可重复性。