分享自:

Omnisage: 大规模、多实体异构图表示学习

期刊:KDD '25DOI:10.1145/3711896.3737253

这篇论文报告了一项关于大规模多实体异质图表示学习的研究,属于类型a,即报告了一项原创性研究。以下是该研究的学术报告:

研究作者及机构
本研究的作者包括Anirudhan Badrinath、Alex Yang、Kousik Rajesh、Prabhat Agarwal(通讯作者)、Jaewon Yang、Haoyu Chen、Jiajing Xu和Charles Rosenberg,均来自Pinterest公司(美国加州帕洛阿尔托)。该研究发表于KDD ‘25(第31届ACM SIGKDD知识发现与数据挖掘会议),会议于2025年8月3-7日在加拿大多伦多举行。

学术背景
研究领域为图表示学习(Graph Representation Learning),旨在通过学习低维潜在向量(latent vectors)表示实体,提升搜索和推荐系统的性能。现有方法主要分为三类:基于图的方法(如Graph Neural Networks, GNNs)用于捕捉实体间关系;基于序列的方法(如Transformer)建模用户行为时序演化;基于内容的方法(如视觉和文本编码)处理冷启动问题。然而,现有研究缺乏将这三类技术统一整合的框架。

Pinterest作为月活超5.5亿的内容发现平台,需处理数十亿规模的引脚(pins)、画板(boards)和用户交互数据。传统方法如PinSage和PinnerFormer仅解决部分问题,无法兼顾异质图结构、内容特征和用户序列的联合建模。为此,研究团队提出OmniSage框架,目标是开发一种可扩展的统一表示学习系统,支持多任务应用(如首页推荐、相关引脚检索等),并验证其在线实际效果。

研究流程
1. 异质图构建与采样
- 数据来源:基于Pinterest平台用户交互数据(如保存、点击、画板包含关系),构建包含引脚和画板两类节点、51.4亿条“引脚-画板”边和12.1亿条“引脚-引脚”边的异质图(heterogeneous graph)。
- 图剪枝算法:针对高度数节点采用幂律剪枝(参数α=0.86),保留代表性边,最终图规模为56亿节点和635亿边。
- 邻域采样:提出基于随机游走重启(RWR)的异质邻域采样方法,按节点类型(如引脚、画板)和边类型(如“引脚-画板”“引脚-引脚”)分层采样,每种类型保留Top-k节点(引脚25个,画板75个)。

  1. 嵌入模型架构

    • 多模态特征编码:使用自研ViT模型编码图像特征,哈希嵌入(hash embeddings)处理n-gram文本特征。
    • Transformer聚合器:设计基于Transformer的邻域聚合器,将节点特征与邻域特征拼接后通过12头自注意力层和MLP生成嵌入(维度768),并通过L2归一化。
    • 分类型嵌入器:为引脚和画板分别训练独立的嵌入器(embedder),以适应实体特性差异。
  2. 对比学习任务设计

    • 实体-实体任务:基于图边和用户交互数据构造正样本对(如相似引脚),优化嵌入空间相似性。采用采样softmax损失(sampled softmax),加入负样本校正(count-min sketch)。
    • 实体-特征任务:通过MLP编码原始特征(如图像、文本),强制嵌入与特征对齐,增强内容感知能力。
    • 用户-实体任务:用4层因果Transformer建模用户行为序列,预测未来交互引脚,融合时序信息。
  3. 系统优化与训练

    • GroGu图引擎:开发分布式图引擎,支持实时邻域采样和特征提取(基于RocksDB),单机可处理十亿级节点。
    • 分块Softmax算法:通过梯度检查点(gradient checkpointing)降低显存占用,支持更大批次训练。
    • 多任务联合训练:加权整合三项任务损失(λp=1, λf=1, λs=1),总参数量未公开。
  4. 离线与在线实验

    • 离线评估:在Recall@10指标上,OmniSage较PinSage提升32.1%(实体-实体任务),较PinnerFormer提升89.5%(用户-实体任务)。消融实验验证异质图(+15%)、多任务联合(+2.6% Homefeed点击率)的关键作用。
    • 在线A/B测试:在首页推荐(Homefeed)、相关引脚(P2P)等场景部署,全站“保存”(repins)提升2.5%,画板推荐场景保存率提升9.7%。

主要结果与结论
OmniSage通过统一框架解决了异质图建模、内容融合和序列学习的协同问题。其核心贡献包括:
1. 算法创新:首次将图神经网络、内容模型和序列Transformer通过对比学习统一,在十亿级规模验证有效性。
2. 工程突破:GroGu引擎支持每日60亿实体推理,相比Spark离线处理效率提升显著。
3. 应用价值:在线指标提升证实了通用表示学习的潜力,代码已开源(GitHub)。

亮点与价值
- 方法论创新:提出多任务对比学习框架,首次实现异质图、内容和序列的端到端联合优化。
- 工业实践价值:为超大规模推荐系统提供可扩展解决方案,已部署于Pinterest核心场景。
- 开源共享:模型代码公开,推动行业应用。

其他价值
附录详述了图剪枝、采样参数等实现细节,为后续研究提供技术参考。可视化案例(如图4、图5)展示嵌入空间的语义一致性,例如相似引脚在向量空间中紧密聚集。研究团队计划未来探索冷启动增强和元学习泛化等方向。

(注:专业术语首次出现均标注英文,如“异质图(heterogeneous graph)”“采样softmax损失(sampled softmax)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com