作者与机构
本研究由Sein Kim(韩国科学技术院 KAIST)、Hongseok Kang(KAIST)、Seungyoon Choi(KAIST)、Donghyun Kim(Naver Corporation)、Minchul Yang(Naver Corporation)及通讯作者Chanyoung Park(KAIST)共同完成。论文发表于2024年8月的ACM SIGKDD国际会议(KDD ‘24),会议地点为西班牙巴塞罗那。
研究领域与动机
本研究属于推荐系统与自然语言处理的交叉领域,聚焦于解决协同过滤推荐系统(Collaborative Filtering Recommender Systems, CF-RecSys)在冷启动场景(cold scenario)下的性能瓶颈问题。传统CF-RecSys依赖用户-物品交互数据,但在交互稀疏时(如新用户或新物品),其性能显著下降。现有方法虽尝试利用文本或图像等模态信息(如基于BERT或Vision Transformer的模态编码器),但在用户-物品交互充分的“热启动场景”(warm scenario)中,这些方法往往表现不佳。
为此,作者提出A-LLMRec(All-round LLM-based Recommender System),旨在通过大型语言模型(LLM)直接利用预训练CF-RecSys中的协同知识,同时保留LLM的文本理解能力,从而实现冷/热场景的全面性能提升。
目标
将预训练CF-RecSys的物品嵌入(item embeddings)与文本信息(如标题、描述)在潜在空间中对齐。
方法
1. 编码器设计:
- 使用冻结的CF-RecSys(如SASRec)生成物品嵌入 ( e_i \in \mathbb{R}^d )。
- 采用Sentence-BERT(SBERT)提取文本嵌入 ( qi \in \mathbb{R}^{768} ),并通过两个1层MLP编码器(物品编码器 ( f{enc}^I ) 和文本编码器 ( f{enc}^T ))将两者映射到同一潜在空间 ( \mathbb{R}^{d’} )。
2. 损失函数:
- 匹配损失(Matching Loss):最小化潜在空间中物品嵌入与文本嵌入的均方误差(MSE)。
- 重构损失(Reconstruction Loss):为防止编码器输出塌缩,添加解码器 ( f{dec}^I ) 和 ( f_{dec}^T ),分别重构原始嵌入。
- 推荐损失(Recommendation Loss):通过负采样优化用户-物品交互的协同知识。
数据集
实验覆盖四个Amazon公开数据集(Movies and TV、Video Games、Beauty、Toys),用户数从9k至300k不等,交互数据稀疏性差异显著(表2)。
目标
将阶段1生成的联合嵌入(joint collaborative-text embeddings)投影到LLM的token空间,使其能够直接用于推荐任务。
方法
1. 投影模块:
- 设计两个2层MLP(( F_U ) 和 ( F_I )),分别将用户表征 ( x_u ) 和物品联合嵌入 ( ei ) 投影到LLM的token空间 ( \mathbb{R}^{d{token}} )。
2. 提示设计(Prompt Engineering):
- 在输入提示中嵌入投影后的用户表征和物品联合嵌入(图3)。例如:“[user representation] is a user representation. This user has watched [history (item titles, item emb)]…”
3. 训练与推理:
- 仅需微调对齐网络(alignment network),冻结LLM(如OPT-6.7b)和CF-RecSys参数,显著提升效率(训练速度比基线TALLRec快2.53倍)。
总体性能(表1):
A-LLMRec在四个数据集上的Hit@1指标均优于传统CF-RecSys(如SASRec)、模态感知模型(如Morec)和纯LLM方法(如TALLRec)。例如,在Movies and TV数据集上,A-LLMRec的Hit@1达0.6237,而SASRec为0.6154。
冷/热场景对比(表4):
冷用户与跨域场景(表5、7):
科学价值
1. 方法论创新:首次提出通过对齐网络将CF-RecSys的协同知识注入LLM,解决了冷/热场景的性能平衡问题。
2. 高效性:仅需训练轻量级对齐网络,无需微调LLM或CF-RecSys,推理速度比TALLRec快1.71倍。
应用价值
- 工业适配性:模型无关(model-agnostic)设计允许直接替换现有推荐系统,适用于实时服务。
- 自然语言生成:通过协同知识理解,A-LLMRec能生成用户偏好的自然语言描述(如预测喜爱的电影类型,图4)。
局限性
未来可通过改进提示工程(如链式思考提示)进一步释放LLM潜力。
(报告字数:约1500字)