分享自:

面向通用跨域推荐的统一框架

期刊:Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining (WSDM '23)DOI:10.1145/3539597.3570366

学术报告:《Towards Universal Cross-Domain Recommendation》研究介绍

作者与发表信息

本研究的核心作者团队来自多个知名机构:
- Jiangxia Cao(中国科学院信息工程研究所/中国科学院大学网络安全学院)
- Shaoshuai LiXiaobo Guo(蚂蚁集团 MyBank)
- Bowen Yu(阿里巴巴集团达摩院)
- Tingwen Liu(通讯作者,中国科学院信息工程研究所)
- Bin Wang(小米 AI 实验室)
论文发表于 WSDM ‘23(ACM International Conference on Web Search and Data Mining),会议时间为 2023 年 2 月 27 日至 3 月 3 日,地点为新加坡。


研究背景与目标

科学领域与问题背景

本研究属于跨域推荐系统(Cross-Domain Recommendation, CDR)领域,旨在解决推荐系统中普遍存在的数据稀疏性(data sparsity)冷启动问题(cold-start problem)。工业场景中(如阿里巴巴、亚马逊等平台),新服务常因用户交互数据不足导致推荐效果差,而成熟服务则拥有丰富数据。传统 CDR 方法分为两类分支:
1. 数据稀疏性 CDR:利用其他域数据辅助目标域内推荐(针对交互较少的用户)。
2. 冷启动 CDR:将用户偏好从源域映射到目标域(针对无交互的新用户)。
然而,现有方法仅针对单一分支设计,缺乏统一框架。

研究目标

提出 UniCDR,首个能够同时建模两类 CDR 场景的通用框架,通过迁移域共享信息(domain-shared information)提升推荐性能。


研究方法与流程

1. 核心框架设计

UniCDR 包含以下关键组件:
- 嵌入层(Embedding Layer):为每个域生成用户/物品的域特异性(domain-specific)域共享(domain-shared)表示矩阵。
- 聚合器(Aggregator):三种可选架构:
- 均值池化(Mean-pooling):平等聚合交互物品信息。
- 用户注意力池化(User-attention-pooling):基于用户偏好加权物品表示。
- 物品相似性池化(Item-similarity-pooling):利用物品协同过滤(item-CF)相似性指导聚合。
- 掩码机制(Masking Mechanism)
- 交互掩码(Interaction Masking):随机丢弃部分交互物品以增强数据多样性。
- 域掩码(Domain Masking):用其他域数据作为共享聚合器输入,强化域不变信息。
- 对比损失(Contrastive Loss):通过最大化域共享与域特异性表示间的互信息,确保共享表示捕获跨域通用特征。

2. 训练与评估流程

  • 训练阶段:联合优化预测损失(BCE 损失)和对比损失,平衡域内推荐与跨域迁移能力。
  • 评估阶段
    • 域内推荐:结合域特异性和共享表示预测物品评分(公式 13)。
    • 跨域推荐:仅用共享表示预测目标域物品(公式 14)。

3. 实验设计

  • 数据集:覆盖 4 类 CDR 场景(双域/多域、用户/物品重叠)和 6 个公开/工业数据集(如 Amazon 和 MyBank 金融数据)。
  • 基线对比:与 24 种前沿方法对比,包括单域推荐(如 LightGCN)、传统 CDR(如 DisenCDR)和多域推荐(如 M3Rec)。
  • 评估指标:Top-10 的 NDCG 和 HR。

主要结果

  1. 性能优势
    • 在双域场景(Scenario 1)中,UniCDR 的 HR 比最优基线 DisenCDR 提升 0.82%(Sport 域)和 1.54%(Cloth 域)。
    • 在冷启动场景(Scenario 2)中,NDCG 较 CDRIB 提高 0.82%(Game 域)。
  2. 模块有效性
    • 用户注意力聚合器在域内推荐中表现最佳(Sport 域 HR 18.37%),而均值聚合器更适合跨域推荐(Scenario 2)。
    • 域掩码显著提升跨域推荐性能(NDCG 提升 1.66%),但对域内推荐影响较小。
  3. 超参数分析
    • 聚合器权重 λₐ=0.5 时达到最佳平衡(用户与物品信息融合)。
    • 损失权重 λ=0.3 时训练效率与效果最优。

结论与价值

科学价值

  1. 理论创新:首次提出统一框架解决两类 CDR 问题,证明域共享信息迁移是通用推荐的核心机制。
  2. 方法创新:通过对比学习与掩码机制,无需复杂网络结构即可实现域不变表示学习。

应用价值

  1. 工业落地潜力:简单设计(如均值聚合器)易于部署,已在蚂蚁金融场景验证。
  2. 开源贡献:发布代码和大规模 CDR 数据集(GitHub),推动学术研究。

研究亮点

  1. 通用性:首次实现单一模型适配 4 类 CDR 场景。
  2. 简洁性:仅需基础组件(如聚合器+掩码)即可超越复杂模型(如图神经网络)。
  3. 可扩展性:框架支持替换聚合器或损失函数,适应更多场景。

其他贡献

  • 金融场景验证:在 MyBank 多服务数据上,UniCDR 的 HR 比 GA-MTCDR 高 2.87%(D3 域),证明其在非电商领域的适用性。
  • 未来方向:计划引入图编码聚合器和更复杂的掩码机制,进一步提升性能。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com