本研究的核心作者团队来自多个知名机构:
- Jiangxia Cao(中国科学院信息工程研究所/中国科学院大学网络安全学院)
- Shaoshuai Li 和 Xiaobo Guo(蚂蚁集团 MyBank)
- Bowen Yu(阿里巴巴集团达摩院)
- Tingwen Liu(通讯作者,中国科学院信息工程研究所)
- Bin Wang(小米 AI 实验室)
论文发表于 WSDM ‘23(ACM International Conference on Web Search and Data Mining),会议时间为 2023 年 2 月 27 日至 3 月 3 日,地点为新加坡。
本研究属于跨域推荐系统(Cross-Domain Recommendation, CDR)领域,旨在解决推荐系统中普遍存在的数据稀疏性(data sparsity)和冷启动问题(cold-start problem)。工业场景中(如阿里巴巴、亚马逊等平台),新服务常因用户交互数据不足导致推荐效果差,而成熟服务则拥有丰富数据。传统 CDR 方法分为两类分支:
1. 数据稀疏性 CDR:利用其他域数据辅助目标域内推荐(针对交互较少的用户)。
2. 冷启动 CDR:将用户偏好从源域映射到目标域(针对无交互的新用户)。
然而,现有方法仅针对单一分支设计,缺乏统一框架。
提出 UniCDR,首个能够同时建模两类 CDR 场景的通用框架,通过迁移域共享信息(domain-shared information)提升推荐性能。
UniCDR 包含以下关键组件:
- 嵌入层(Embedding Layer):为每个域生成用户/物品的域特异性(domain-specific)和域共享(domain-shared)表示矩阵。
- 聚合器(Aggregator):三种可选架构:
- 均值池化(Mean-pooling):平等聚合交互物品信息。
- 用户注意力池化(User-attention-pooling):基于用户偏好加权物品表示。
- 物品相似性池化(Item-similarity-pooling):利用物品协同过滤(item-CF)相似性指导聚合。
- 掩码机制(Masking Mechanism):
- 交互掩码(Interaction Masking):随机丢弃部分交互物品以增强数据多样性。
- 域掩码(Domain Masking):用其他域数据作为共享聚合器输入,强化域不变信息。
- 对比损失(Contrastive Loss):通过最大化域共享与域特异性表示间的互信息,确保共享表示捕获跨域通用特征。