DiffGRM：基于扩散的生成式推荐模型

分享自：
DiffGRM：基于扩散的生成式推荐模型

期刊:Proceedings of the ACM Web Conference 2026 (WWW '26)DOI:10.1145/3774904.3792156
DiffGRM：基于扩散的生成式推荐模型
一、 作者、机构与发表信息
本研究由来自快手科技（Kuaishou Technology）的Zhao Liu、Yichen Zhu、Yiqing Yang、Xiao Lv、Guoping Tang、Rui Huang、Qiang Luo、Ruiming Tang和Guorui Zhou共同完成。该研究以题为“diffgrm: diffusion-based generative recommendation model”的论文形式，发表于2026年4月13日至17日在阿拉伯联合酋长国迪拜举行的第15届国际万维网大会（The ACM Web Conference 2026，简称WWW ‘26）的会议论文集。该论文已收录于ACM数字图书馆，并获得了知识共享署名4.0国际许可。
二、 学术背景与研究目的
本研究属于信息检索与推荐系统领域，具体聚焦于生成式推荐这一新兴范式。生成式推荐的核心思想是将推荐任务转化为序列生成问题：首先，通过一个分词器将每个物品映射为一个固定长度的语义ID；然后，基于用户的历史交互序列，自回归地生成下一个物品的语义ID。
然而，现有的生成式推荐模型主要依赖自回归模型。作者指出，语义ID的两个固有结构特性使得自回归模型存在局限性： 1. 物品内一致性：语义ID的多个数字位共同指定一个唯一的物品。但自回归模型从左到右的因果生成方式，使得每个数字位只能基于其前缀信息进行训练和预测，无法利用来自其右侧数字位的双向交叉验证信息，导致监督信号被限制在单一的因果路径上。 2. 数字位间异质性：语义ID的不同数字位编码了不同粒度的语义信息，其预测难度也各不相同。但自回归模型均匀的“下一个token”预测目标，对所有数字位施加了同等的监督权重，这导致容易预测的“简单数字位”被过度训练，而难以预测的“困难数字位”则训练不足。
为了克服这些挑战，本研究旨在探索一种新的生成范式。研究团队受到离散扩散模型在自然语言处理领域快速发展的启发，提出了用掩码扩散模型替代自回归解码器的思路。扩散模型天然支持双向上下文建模和并行生成，能够提供更丰富的监督信号。因此，本研究的目标是设计并实现一个名为DiffGRM的、基于扩散的生成式推荐模型，以更好地适配语义ID的结构特性，提升推荐性能。
三、 研究流程与详细方法
本研究系统地构建了DiffGRM模型，其工作流程涵盖三个核心层面：分词化、训练和推理。
1. 分词化层面：并行语义编码 * 研究内容：如何将物品内容特征（如文本、图像）转化为语义ID序列。 * 方法与处理：传统的生成式推荐模型常使用残差量化（如RQ-VAE），这会引入数字位间的残差依赖关系，强化了从左到右的偏置，不利于并行预测。为解决此问题，DiffGRM采用了并行语义编码。首先，使用预训练的语言模型将物品内容特征编码为连续向量。然后，学习一个正交旋转矩阵来优化量化效果，并将旋转后的向量均匀分割成n个子向量。最后，每个子向量独立地通过其专属的码本进行量化，得到一个n位的语义ID。这种方法解耦了数字位间的依赖，平衡了每个数字位承载的信息量，为后续的并行扩散生成奠定了基础。
2. 训练层面：基于策略的连贯噪声注入 * 研究内容：如何高效地训练掩码扩散解码器。 * 问题与挑战：推荐系统的物品库庞大且长尾分布严重。如果采用标准的随机掩码策略，监督信号会非常稀疏且分散。更关键的是，对于一个n位的语义ID，理论上存在n * 2^(n-1)种不同的“目标数字位-上下文”监督信号对。枚举所有可能的掩码模式（至少需要2^n - 1种）以覆盖所有信号是不现实的。 * 创新方法：为此，作者提出了OCN。OCN的核心思想是，根据模型当前自身的预测不确定性（即“策略”）来决定对哪些数字位进行掩码，而不是随机选择。具体流程如下： a. 不确定性评估：对于给定的用户历史序列，模型首先在一个完全被掩码的语义ID上进行一次“探测”前向传播，得到模型对每个数字位的预测概率分布。 b. 难度排序：计算每个数字位的预测置信度（最高概率值），置信度越低则难度越高。根据难度对所有数字位进行降序排序。 c. 连贯掩码：按照一个从“轻度掩码”到“重度掩码”的进度表，依次构建R个不同的“视图”。在视图r中，只掩码难度排名最高的前m_r个数字位，而保持其他数字位可见（使用其真实的嵌入）。这样，所有视图的掩码集合是嵌套的，随着视图推进，可见的上下文逐渐增多，但被掩码的始终是模型当前认为最不确定的那些“困难数字位”。 d. 损失计算：对每个视图，计算所有被掩码数字位的交叉熵损失，并对所有视图的损失进行平均作为最终训练目标。 * 优势：OCN将有限的训练预算集中在了信息价值最高的监督信号上（即预测困难的位置），避免了随机掩码带来的监督信号指数级分散问题，显著提升了训练效率和模型对困难样本的学习能力。
3. 推理层面：置信度引导的并行去噪 * 研究内容：如何利用训练好的扩散模型生成多样且准确的Top-K推荐候选列表。 * 方法与处理：标准的离散扩散模型推理通常采用贪婪解码，只产生一个最优输出。但推荐任务需要返回一个多样化的候选集。为此，DiffGRM设计了CPD算法，这是一种全局并行束搜索方法。 a. 初始化：从完全掩码的序列开始，利用编码器输出的用户历史信息，计算模型对所有可能数字位取值的初始置信度得分。 b. 迭代填充：在每一步去噪迭代中，算法维护一个大小为B_act的活跃束。对于束中的每个部分完成的语义ID分支，模型评估所有仍被掩码的数字位，计算填充每个可能值后的得分（累积对数概率）。 c. 置信度引导：算法并非按固定顺序（如从左到右）填充数字位，而是选择当前所有分支中“数字位-值”对置信度最高的组合进行填充。这允许模型根据当前上下文动态决定先确定哪个位置的信息。 d. 束剪枝与完成：每一步保留得分最高的B_act个新分支。重复此过程，直到所有数字位都被填充，得到一个完整的语义ID序列。最终，对生成的所有序列进行去重，并按最终得分排序返回Top-K个候选。
四、 主要实验结果与分析
研究在三个公开的亚马逊评论数据集上进行了实验验证。
1. 整体性能对比 * 实验设置：在Sports、Beauty和Toys三个数据集上，将DiffGRM与三大类基线模型进行对比：基于物品ID的判别式模型、语义增强的判别式模型以及基于语义ID的生成式模型。评估指标为Recall@K和NDCG@K。 * 结果与数据：DiffGRM在12个评估指标中的11个上取得了最佳性能。相较于最强的基线模型，在NDCG@10指标上分别提升了15.53%（Sports）、8.19%（Beauty）和6.94%（Toys）。在Recall@10指标上，Sports和Beauty数据集分别提升了10.00%和8.28%，Toys数据集略降4.03%，但NDCG指标仍全面领先。 * 分析与逻辑：这些结果强有力地证明了DiffGRM框架的有效性。性能提升主要归因于：1）掩码扩散训练提供了更密集的双向监督信号；2）OCN策略优化了监督信号的分配；3）CPD推理能够生成高质量且多样化的候选集。实验结果直接回应了研究背景中提出的问题，证实了用扩散模型替代自回归模型以解决“物品内一致性”和“数字位间异质性”挑战的可行性。
2. OCN有效性验证 * 实验设计：为了验证OCN在有限训练预算下的效率，作者引入了“有效样本通过次数”的概念，并与一种简单的“k倍连贯路径噪声注入”基线进行对比。后者通过重复采样k条固定的掩码路径来增加监督信号。 * 结果与数据：实验表明，随着k增大（即监督信号增多），基线方法性能提升，但所需的计算代价（ESP）也线性增加。相比之下，DiffGRM采用的OCN策略在相同甚至更低的ESP下，达到了与之相当或更优的性能。 * 分析与逻辑：该实验证明，OCN通过智能地选择对困难数字位进行掩码，能够更高效地利用训练样本，将计算资源集中在最需要学习的部分，从而实现了更高的样本效率。这支持了OCN设计初衷：在无法枚举所有掩码模式的情况下，选择性聚焦于高价值信号是关键。
3. 消融实验 * 实验设计：通过系统性地移除或替换DiffGRM的关键组件，评估每个组件的贡献。 * 结果与数据： * PSE vs RQ：将PSE替换为残差量化方法（RQ-kmeans）导致性能显著下降，证实了消除数字位间依赖对于并行扩散生成的重要性。 * OCN vs 随机掩码：移除OCN（即使用随机掩码）性能大幅下降，说明OCN的针对性噪声策略至关重要。 * OCN vs 静态连贯掩码：保留连贯掩码但移除“基于策略”的选择（即固定掩码最难的位置），性能优于随机掩码但仍低于完整OCN，说明根据模型实时不确定性动态调整掩码策略是有效的。 * CPD vs 随机顺序束搜索：用固定随机顺序的束搜索替代CPD，性能也出现下降，证明了置信度引导的动态填充顺序对于生成优质候选集的价值。
4. 进一步分析 * OCN策略分析：对比了“掩码最不自信位”与“掩码最自信位”、“静态排序”与“每步刷新排序”四种组合。结果表明，“掩码最不自信位+静态排序”的组合（即DiffGRM所用）效果最好。刷新排序会干扰训练稳定性，而掩码最自信位则违背了聚焦困难样本的原则。 * CPD束大小分析：增大束搜索的宽度（Beam Size）能够持续提升NDCG@10性能，这与束搜索缓解局部最优问题的理论一致。 * 语义编码器分析：使用更大、更强的预训练语言模型作为语义编码器，能进一步提升DiffGRM的性能，表明模型捕捉语义信息的能力是其成功的基础之一。
五、 研究结论与价值
本研究的核心结论是提出并验证了DiffGRM，这是首个将掩码离散扩散模型应用于生成式推荐任务的框架。它通过并行语义编码解耦语义ID的数字位依赖，通过基于策略的连贯噪声注入实现高效、聚焦的训练，并通过置信度引导的并行去噪生成多样化的Top-K推荐结果。
科学价值：该研究揭示了自回归生成范式与语义ID结构特性之间的根本性错配，并创新性地引入了扩散模型这一新范式来解决该问题。它深化了人们对生成式推荐中序列表示与生成机制之间关系的理解，为推荐系统领域提供了新的建模思路。
应用价值：DiffGRM在多个公开基准数据集上取得了显著的性能提升，证明了其在实际推荐场景中的有效性和优越性。其并行生成特性也具备潜在的速度优势。该框架为构建下一代高效、精准的生成式推荐系统提供了可行的技术方案。
六、 研究亮点
范式创新：首次将离散扩散模型系统性地引入生成式推荐任务，用非自回归的并行生成替代了传统的自回归生成，从根本上解决了物品内语义一致性与自回归因果约束之间的矛盾。
方法创新：提出了三个紧密耦合的任务定制化组件（PSE, OCN, CPD），分别针对分词化、训练和推理中的关键挑战进行了针对性设计，形成了完整且高效的解决方案。
理论结合实践：不仅提出了新模型，还通过详实的实验（整体性能、消融分析、组件有效性验证、超参数分析等）全面评估了其有效性，并深入分析了性能增益的来源（如OCN的样本效率、CPD的搜索策略等）。
显著的性能提升：在标准基准测试中，相较于包括当前最先进的生成式和判别式推荐模型在内的强大基线，取得了显著且一致的性能改进，证明了该方法的先进性和鲁棒性。
七、 其他有价值内容
论文在附录和讨论部分还提供了更多有价值的信息，例如：对自回归模型与掩码扩散模型可学习监督信号数量的理论对比分析；模型训练和推理复杂度的详细推导，表明DiffGRM在工业级长序列场景下与自回归模型的计算开销相近；开源了代码以促进复现和后续研究。这些内容增强了研究的严谨性和可重复性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问