分享自:

DTCDR:一种双目标跨域推荐框架

期刊:ACM International Conference on Information and Knowledge Management (CIKM)DOI:10.1145/3357384.3357992

这篇文档属于类型a,是一篇关于跨领域推荐系统(Cross-Domain Recommendation, CDR)的原创性研究论文。以下是详细的学术报告内容:


作者与发表信息

本研究由Feng Zhu(Macquarie University)、Chaochao Chen(Ant Financial Services Group)、Yan WangGuanfeng Liu(Macquarie University)、Xiaolin Zheng(Zhejiang University)合作完成,发表于2019年11月的ACM国际信息与知识管理会议(CIKM),论文标题为《DTCDR: A Framework for Dual-Target Cross-Domain Recommendation》,DOI编号为10.11453357384.3357992

学术背景

研究领域:推荐系统(Recommender Systems)中的跨领域推荐(Cross-Domain Recommendation, CDR),核心挑战是解决数据稀疏性(Data Sparsity)问题。传统CDR方法仅利用源领域(Source Domain)的丰富信息辅助目标领域(Target Domain),但忽略了目标领域可能在某些数据类型(如评分、评论、标签)上更丰富。因此,本研究提出双目标跨领域推荐(Dual-Target CDR),旨在同时提升两个领域的推荐性能。

研究动机
1. 数据互补性:不同领域的数据分布不均,单一方向的迁移学习无法充分利用双向信息。
2. 现有局限:传统CDR方法(如基于内容的迁移或基于特征的迁移)仅针对单目标优化,且依赖领域间完全重叠的用户/物品。
3. 技术空白:多任务学习(Multi-Task Learning, MTL)和多领域推荐(Multi-Domain Recommendation, MDR)均未解决双目标优化问题。

研究目标
- 设计一个通用框架DTCDR,通过结合评分(Ratings)和多源内容(如评论、用户画像、物品详情)生成用户和物品的嵌入表示(Embeddings)。
- 基于MTL实现跨领域嵌入共享,提升双领域推荐性能。


研究流程与方法

研究分为以下核心步骤:

1. 输入层(Input Layer)

  • 数据来源:两个领域(如电影和书籍)的显式反馈(评分、评论)、用户画像(User Profiles)、物品详情(Item Details)。
  • 数据划分:将输入数据分为评分(Ratings)和内容(Content)两类,分别用于后续嵌入生成。

2. 嵌入层(Embedding Layer)

  • 文档嵌入(Document Embedding)
    • 使用Doc2Vec模型(DBOW算法)将多源文本(评论、标签、用户画像等)映射为文本向量(Text Vectors),生成用户和物品的文档嵌入((U_C, V_C))。
    • 文本预处理采用Stanford CoreNLP工具清洗和分词。
  • 评分嵌入(Rating Embedding)
    • 基于两种神经网络模型生成:
    • NeuMF(Neural Matrix Factorization):结合广义矩阵分解(GMF)和多层感知机(MLP),预测隐式反馈(用户-物品交互)。
    • DMF(Deep Matrix Factorization):通过深度架构学习用户和物品的潜在因子,优化归一化交叉熵损失函数。

3. 组合层(Combination Layer)

  • 嵌入共享策略
    • 对领域间共同用户的嵌入((U^a, U^b)和(U_C^a, U_C^b))进行组合,采用三种操作符:
    1. 拼接(Concatenation):保留所有嵌入特征。
    2. 最大池化(Max-Pooling):保留显著特征。
    3. 平均池化(Average-Pooling):取均值以平滑噪声。
    • 领域特有用户和物品的嵌入直接组合(如(P^a = [U^c \otimes U_C^c; U^{a_d} \otimes U_C^{a_d}]))。

4. 神经网络层(Neural Network Layer)

  • 采用多层感知机(MLP)建模用户-物品非线性交互关系,结构为(e \to 32 \to 16 \to k)((k)为潜在因子维度)。
  • 训练目标:最小化预测交互矩阵((\hat{Y}))与真实交互矩阵((Y))的误差,损失函数为交叉熵(NeuMF)或归一化交叉熵(DMF)。

5. 输出层(Output Layer)

  • 生成双领域的推荐列表,评估指标为Hit Ratio (HR@N)NDCG@N

主要结果

1. 性能对比(Q1)

  • 实验任务:在豆瓣电影-书籍(Task 1)、豆瓣电影-音乐(Task 2)、豆瓣电影-MovieLens(Task 3)三个任务中,DTCDR显著优于基线模型:
    • 单领域模型:比BPR、NeuMF、DMF平均提升HR@10达8.97%~13.73%,NDCG@10提升11.77%~18.83%。
    • 跨领域模型:比CTR-RBF、EMCDR等平均提升HR@10达6.20%~10.06%,NDCG@10提升9.37%~13.84%。
  • 最佳表现:DMF_DTCDR(拼接操作符)在多数任务中性能最优(HR@10提升9.45%,NDCG@10提升13.90%)。

2. 潜在因子维度影响(Q2)

  • 当维度(k \leq 16)时,性能随(k)增加而提升;(k > 16)时因过拟合导致性能下降。

3. 组合操作符影响(Q3)

  • 拼接(Concat)表现最稳定,因其保留全部嵌入信息;最大池化在部分场景中优于平均池化。

4. 文档嵌入与MTL的贡献(Q4)

  • 仅使用文档嵌入(无MTL)时,NeuMF+和DMF+比原始模型提升1.50%~2.34%。
  • 仅使用MTL(无文档嵌入)时,DTCDR仍优于所有基线模型(HR@10提升3.09%~6.12%)。

5. Top-N推荐性能(Q5)

  • DTCDR在(N=1\sim10)的推荐列表中均表现最优,尤其在(N=10)时HR@10平均提升12.16%~16.71%。

结论与价值

  1. 科学价值
    • 首次提出双目标跨领域推荐框架DTCDR,通过MTL和嵌入共享解决数据稀疏性问题。
    • 验证了多源内容(文本+评分)和双向迁移对推荐性能的协同增强作用。
  2. 应用价值
    • 可扩展至跨系统推荐(Cross-System Recommendation, CSR),如豆瓣与MovieLens的影片推荐。
    • 为多领域数据融合提供通用解决方案。

研究亮点

  1. 创新性:首次实现双领域协同优化,突破传统单目标CDR的局限性。
  2. 方法通用性:支持多种嵌入组合策略(Concat/MP/AP)和神经网络模型(NeuMF/DMF)。
  3. 实验严谨性:在真实数据集(豆瓣、MovieLens)上验证性能,覆盖不同稀疏度场景。

未来方向

  • 扩展至多目标推荐(Multi-Target CDR)。
  • 研究共同用户比例和数据稀疏性对性能的影响机制。

(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com