这篇论文报告了一项关于大规模多实体异质图表示学习的研究,属于类型a,即报告了一项原创性研究。以下是该研究的学术报告:
研究作者及机构
本研究的作者包括Anirudhan Badrinath、Alex Yang、Kousik Rajesh、Prabhat Agarwal(通讯作者)、Jaewon Yang、Haoyu Chen、Jiajing Xu和Charles Rosenberg,均来自Pinterest公司(美国加州帕洛阿尔托)。该研究发表于KDD ‘25(第31届ACM SIGKDD知识发现与数据挖掘会议),会议于2025年8月3-7日在加拿大多伦多举行。
学术背景
研究领域为图表示学习(Graph Representation Learning),旨在通过学习低维潜在向量(latent vectors)表示实体,提升搜索和推荐系统的性能。现有方法主要分为三类:基于图的方法(如Graph Neural Networks, GNNs)用于捕捉实体间关系;基于序列的方法(如Transformer)建模用户行为时序演化;基于内容的方法(如视觉和文本编码)处理冷启动问题。然而,现有研究缺乏将这三类技术统一整合的框架。
Pinterest作为月活超5.5亿的内容发现平台,需处理数十亿规模的引脚(pins)、画板(boards)和用户交互数据。传统方法如PinSage和PinnerFormer仅解决部分问题,无法兼顾异质图结构、内容特征和用户序列的联合建模。为此,研究团队提出OmniSage框架,目标是开发一种可扩展的统一表示学习系统,支持多任务应用(如首页推荐、相关引脚检索等),并验证其在线实际效果。
研究流程
1. 异质图构建与采样
- 数据来源:基于Pinterest平台用户交互数据(如保存、点击、画板包含关系),构建包含引脚和画板两类节点、51.4亿条“引脚-画板”边和12.1亿条“引脚-引脚”边的异质图(heterogeneous graph)。
- 图剪枝算法:针对高度数节点采用幂律剪枝(参数α=0.86),保留代表性边,最终图规模为56亿节点和635亿边。
- 邻域采样:提出基于随机游走重启(RWR)的异质邻域采样方法,按节点类型(如引脚、画板)和边类型(如“引脚-画板”“引脚-引脚”)分层采样,每种类型保留Top-k节点(引脚25个,画板75个)。
嵌入模型架构
对比学习任务设计
系统优化与训练
离线与在线实验
主要结果与结论
OmniSage通过统一框架解决了异质图建模、内容融合和序列学习的协同问题。其核心贡献包括:
1. 算法创新:首次将图神经网络、内容模型和序列Transformer通过对比学习统一,在十亿级规模验证有效性。
2. 工程突破:GroGu引擎支持每日60亿实体推理,相比Spark离线处理效率提升显著。
3. 应用价值:在线指标提升证实了通用表示学习的潜力,代码已开源(GitHub)。
亮点与价值
- 方法论创新:提出多任务对比学习框架,首次实现异质图、内容和序列的端到端联合优化。
- 工业实践价值:为超大规模推荐系统提供可扩展解决方案,已部署于Pinterest核心场景。
- 开源共享:模型代码公开,推动行业应用。
其他价值
附录详述了图剪枝、采样参数等实现细节,为后续研究提供技术参考。可视化案例(如图4、图5)展示嵌入空间的语义一致性,例如相似引脚在向量空间中紧密聚集。研究团队计划未来探索冷启动增强和元学习泛化等方向。
(注:专业术语首次出现均标注英文,如“异质图(heterogeneous graph)”“采样softmax损失(sampled softmax)”)