分享自:

基于图嵌套GRU ODE的进化偏好学习用于基于会话的推荐

期刊:Proceedings of the 31st ACM International Conference on Information and Knowledge ManagementDOI:10.1145/3511808.3557314

基于图嵌套GRU常微分方程(GNG-ODE)的演化偏好学习在会话推荐中的研究与应用

一、 研究作者、机构与发表情况 本研究的主要作者包括北京大学的郭嘉琰和闫展,香港科技大学的张沛彦和金亨峻,以及微软亚洲研究院的李朝卓和谢幸。论文《Evolutionary Preference Learning via Graph Nested GRU ODE for Session-Based Recommendation》于2022年10月17日至21日在美国亚特兰大举行的第31届ACM信息与知识管理国际会议(The 31st ACM International Conference on Information and Knowledge Management, CIKM ‘22)上发表,并收录于该会议论文集中。该论文为开源获取,由北京大学、微软亚洲研究院和香港科技大学提供支持。截至论文提取文本所示,该论文已获得37次引用和468次下载。

二、 学术背景与研究目标 本研究属于信息科学与人工智能领域,具体聚焦于推荐系统中的会话基推荐(Session-Based Recommendation, SBR)问题。SBR的核心目标是在缺乏用户长期历史行为数据的场景下,仅基于用户在一个相对较短的时间窗口(即一个“会话”)内的交互序列(如点击、浏览),来预测用户下一个可能感兴趣的物品。这种推荐模式在电子商务、网页浏览等实时性要求高的场景中至关重要。

尽管传统的SBR方法利用循环神经网络(RNN)或图神经网络(GNN)在捕捉物品间序列模式或图结构关系上取得了一定成功,但它们普遍存在一个关键局限:大多将用户偏好建模为一个离散状态,忽略了用户偏好在连续时间上演化的固有特性。具体背景挑战包括:1) 时间间隔不规律性:用户交互行为在时间上是非均匀发生的,固定时间片的离散化建模会损失细粒度的时间信息,无法捕捉用户兴趣随停留时间变化而衰减等动态。2) 时间流逝效应被忽视:现有方法生成的用户偏好表示是静态的,一旦生成就不再变化。即使用户在一天后或一个月后返回平台,系统也会给出相同的推荐,这显然不符合用户偏好随时间自然漂移的现实。3) 结构与时间模式割裂:许多方法分别处理会话中的结构关系(物品转移图)和时间信息,未能有效建模二者在连续时间上的耦合演化。

因此,本研究旨在解决上述挑战,提出一种全新的、能够以完全连续的方式建模用户偏好演化的SBR模型。核心目标是将用户偏好视为一个随时间连续演化的潜在过程,将会话中的物品交互视为这一连续过程在特定时间点的“观测”,从而更精确地捕捉用户意图的动态变化,实现更精准的下一物品推荐。

三、 详细研究流程与方法论 本研究提出的核心模型名为图嵌套GRU常微分方程(Graph Nested GRU Ordinary Differential Equation, GNG-ODE)。整个研究流程主要包括三个核心组件:连续时间会话图构建、动态物品表征学习、用户偏好生成与预测。以下是详细的工作流程:

1. 连续时间会话图(Temporal Session Graph)构建 首先,给定一个正在进行的会话序列S={v₁, v₂, …, vₙ},研究团队摒弃了传统的、将时间线分割为等长片段的“快照”式动态图构建方法。取而代之的是,他们将整个会话建模为一个连续时间动态图G=(V, E, τ)。其中,V是会话中出现的所有物品节点的集合;E是边的多重集合,代表物品之间的转移关系(例如,用户点击了v₁后点击了v₂,则存在一条从v₁指向v₂的边)。最关键的是时间函数τ: E → R⁺,它为每一条转移边赋予一个具体的时间戳,精确记录了该次交互发生的时间点。这样构建的图,其拓扑结构(边)会随着时间戳的增加而动态增加,从而在单一数据结构中无缝集成了物品间的结构依赖关系和精确的时间顺序。

2. 动态物品表征学习 这是模型的核心创新部分,旨在学习每个物品在任意时间点的动态嵌入表示。 * 初始潜在状态编码器(Initial Latent State Encoder):为了给后续的连续演化提供一个良好的起点,模型首先需要根据已观测到的物品及其转移关系,推断出物品在初始时刻的潜在状态。研究采用门控图神经网络(Gated Graph Neural Network, GGNN)作为编码器。GGNN能够同时聚合物品自身的属性信息(通过初始嵌入)和其在静态会话图(由当前已发生的所有交互构成)中的邻域结构信息。通过多层GGNN的信息传播与门控更新,模型得到一个综合考虑了物品特征和会话内转移模式的初始状态向量h_u(0)。该状态向量经过L2归一化,被约束在[-1, 1]区间内,以确保后续常微分方程求解的稳定性。 * 图嵌套GRU常微分方程(GNG-ODE)函数:这是本研究最重要的方法论创新。研究团队从经典的离散时间动态图模型——图嵌套门控循环单元(Graph Nested GRU, GNG)出发,通过数学推导,将其更新方程转化为一个连续时间的常微分方程(ODE)。具体而言,他们展示了GNG的隐藏状态更新可以写成一个差分方程,当时间步长趋于无穷小时,该差分方程自然导出了一个描述隐藏状态h_u(t)随时间t连续变化的ODE: dh_u(t)/dt = (1 - z_u(t)) ⊙ (g_u(t) - h_u(t)) 其中,z_u(t)和g_u(t)是由图卷积网络(GCN)参数化的门控状态和候选状态,它们依赖于当前时间t的图结构G(t)和隐藏状态h_u(t)。这个ODE在数学上被证明是良态的(well-posed),即解存在且唯一。更重要的是,该ODE系统被证明是利普希茨连续(Lipschitz continuous)的,并且其解h_u(t)被有界地约束在[-1, 1]区间内。这些数学性质保证了使用数值ODE求解器进行积分计算的可行性和稳定性。 * 时间对齐算法(T-Alignment):将神经ODE应用于动态图面临一个独特挑战:标准ODE求解器在积分过程中假设系统动力学(即ODE函数f)的参数是固定的。然而,在我们的动态会话图中,图结构G(t)随时间变化,意味着ODE函数f本身也在变化。现有的ODE求解器无法直接处理这种情况。为此,研究团队创新性地提出了T-Alignment算法。该算法的核心思想是:在ODE求解器进行数值积分的每一个内部时间步上,动态地“对齐”当前时间点对应的图结构。具体来说,给定积分时间点t₀ + k×Δt,T-Alignment会检查所有边,仅保留那些时间戳τ ≤ t₀ + k×Δt的边,用这些边构成当前时刻的会话图G(t₀ + k×Δt),并将其输入GNG-ODE函数来计算当前时刻的导数。这使得模型能够在一次ODE求解过程中,无缝地处理图结构的连续演化,而无需存储多个图快照或中断求解过程。

3. 用户偏好生成与预测 在通过GNG-ODE积分得到会话结束时(即最后一个物品交互后一瞬间,记为tₙ⁺)所有物品的动态表征{h_v₁(tₙ⁺), …, h_vₙ(tₙ⁺)}后,模型需要生成一个综合的用户偏好表示以进行推荐。 * 偏好生成:研究结合了用户的近期兴趣长期兴趣。近期兴趣直接用最后一个物品的表示h_vₙ(tₙ⁺)来代表。长期兴趣则通过一个注意力机制(Attention Mechanism)对会话中所有物品的表示进行加权聚合得到,其中注意力权重通过学习得到,旨在衡量每个历史物品对于预测下一个目标物品的重要性。 * 预测:将融合了长短期兴趣的最终用户偏好表示,与所有候选物品的初始嵌入进行内积运算(并经过L2范数归一化),得到每个候选物品的得分。最后通过softmax函数将这些得分转化为概率分布,排名最高的K个物品将被推荐给用户。 * 模型训练:整个模型采用交叉熵损失函数进行端到端的训练,并加入L2正则化以防止过拟合。

四、 主要实验结果与分析 研究团队在三个公开的真实世界基准数据集上进行了广泛的实验,以验证GNG-ODE的有效性:Gowalla(位置签到)、Tmall(电商购买)和Nowplaying(音乐播放)。这些数据集在交互密度、会话平均长度和时间间隔上具有多样性。

1. 整体性能对比(RQ1) 模型与多种先进的基线方法进行了比较,包括经典的RNN模型(如NARM)、静态GNN模型(如SR-GNN、LESSR、GCE-GNN)、以及一些新兴的考虑时间信息的SBR模型(如TGSRec、TMI-GNN)。评价指标采用推荐领域常用的命中率(HR@K)和平均倒数排名(MRR@K)。 实验结果表明,GNG-ODE在所有三个数据集的所有评价指标上均显著优于所有基线模型。例如,在Tmall数据集上,相较于最好的基线(TMI-GNN),GNG-ODE在HR@20和MRR@20上分别实现了2.14%和6.05%的性能提升。在Nowplaying数据集上,相应的提升为1.69%和3.82%。这些一致且显著的提升强有力地证明了以连续方式建模用户偏好演化的有效性和优越性。分析指出,GNG-ODE带来的性能增益在排名靠前的推荐位置(即K值较小时)更为明显,这意味着模型能够更准确地将目标物品推至推荐列表前列,从而提供更佳的用户体验。

2. 消融研究与组件分析 * 编码器影响(RQ2):比较了使用不同初始状态编码器(原始嵌入、多层感知机MLP、GGNN)的GNG-ODE变体。结果显示,使用GGNN作为编码器的版本性能最佳,特别是在Tmall数据集上优势明显。这验证了在初始状态中编码会话图的结构信息对于后续的连续演化建模至关重要。 * ODE函数与T-Alignment影响(RQ3):研究测试了将核心的GNG-ODE函数替换为其他ODE函数,如图卷积ODE(GCN-ODE)、普通GRU-ODE和多层感知机ODE(MLP-ODE)。实验发现,GNG-ODE的性能始终最优,表明其同时建模结构依赖和时间演化的能力是关键。此外,移除了T-Alignment算法的版本(即使用静态图进行ODE积分)性能显著下降,这直接证明了T-Alignment对于在动态图场景中成功应用神经ODE是不可或缺的。 * ODE求解器分析(RQ4):研究了不同数值ODE求解器(显式欧拉法Euler、四阶龙格-库塔法RK4、自适应步长的Dopri5)的影响。自适应求解器Dopri5通常表现最佳,而固定步长求解器中RK4优于Euler。研究还探讨了固定步长求解器中步长大小的影响,发现减小步长(提高积分精度)能提升性能,但会牺牲计算效率,需要在效果和效率间取得平衡。

3. 效率与超参数分析(RQ5, RQ6) 运行时间分析显示,使用欧拉求解器的GNG-ODE与主流基线模型计算效率相当,而使用更精确的RK4或Dopri5求解器虽然耗时增加,但仍处于可接受范围。超参数研究表明,嵌入维度(Embedding Size)和GGNN编码器层数存在最优值,并非越大或越多越好,过大的维度或层数可能导致收益饱和或过平滑问题。

五、 研究结论与价值 本研究的核心结论是,通过提出GNG-ODE模型,成功地将神经常微分方程引入会话基推荐领域,首次实现了对用户偏好在完全连续时间上演化过程的建模。模型不仅理论上具有良态性和稳定性,而且通过创新的T-Alignment算法解决了动态图与ODE求解器的兼容性问题。

科学价值:本研究为SBR乃至更广泛的时序推荐问题提供了一个全新的、基于连续动力系统的建模视角。它突破了传统离散建模范式的局限,将用户-物品交互的动态本质更精确地形式化为一个连续时间过程。所提出的GNG-ODE推导框架和T-Alignment技术,也为将神经ODE应用于其他动态图学习任务提供了有价值的参考。

应用价值:GNG-ODE模型能够更细腻地捕捉用户兴趣的实时漂移,对于提升电子商务、内容平台、在线广告等场景的推荐准确性和实时响应能力具有直接的应用潜力。模型能够自然地处理不规则时间间隔的交互数据,并考虑时间流逝对用户偏好的影响,这使得推荐结果更加贴合用户当前的真实意图。

六、 研究亮点 1. 范式创新:首次在SBR中引入神经ODE来建模用户偏好的连续演化,是方法论的显著创新。 2. 模型创新:提出了图嵌套GRU ODE(GNG-ODE),将图结构信息与时间演化在连续域中自然融合。 3. 算法创新:设计了T-Alignment算法,巧妙地解决了动态图结构与固定形式ODE求解器之间的适配难题,是工程实现上的关键创新。 4. 理论扎实:对提出的GNG-ODE进行了严格的数学分析(有界性、利普希茨连续性),证明了其良态性,为模型的可靠应用奠定了理论基础。 5. 实证充分:在多个具有不同特性的公开数据集上进行了全面实验,通过主实验、细致的消融研究和参数分析,充分验证了模型各组成部分的有效性和整体性能的优越性。

七、 其他 本研究代码已在GitHub上开源,促进了研究的可复现性和后续工作的开展。论文也详细讨论了相关工作和未来方向,为领域研究者提供了清晰的学术脉络和拓展思路。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com