本文档属于类型a,即报告了一项原创性研究。以下为针对该研究的学术报告:
基于RAG与Transformer的上下文个性化推荐系统研究
1. 作者与发表信息
本研究由Faten S. Alamri(沙特阿拉伯Princess Nourah bint Abdulrahman University数学科学系)、Amjad Rehman(沙特阿拉伯Prince Sultan University人工智能与数据分析实验室)、Bayan Alghofaily(同前)、Adeel Ahmed和Khalid Saleem(巴基斯坦Quaid-i-Azam University计算机科学系)合作完成,发表于2025年5月27日的《IEEE Access》期刊(DOI: 10.1109/ACCESS.2025.3574073),研究经费由沙特阿拉伯Princess Nourah bint Abdulrahman University支持(项目编号PNURSP2025R346)。
2. 学术背景
科学领域:本研究属于电子商务推荐系统与自然语言处理(NLP)交叉领域,聚焦于解决推荐系统中的冷启动(cold-start)和数据稀疏性问题。
研究动机:尽管大型语言模型(LLM, Large Language Model)在推荐任务中表现出色,但其依赖预训练知识,在稀疏数据或缺乏历史交互时性能下降,且自回归生成(autoregressive generation)导致推理速度慢。传统协同过滤(Collaborative Filtering)方法在数据稀疏时推荐质量显著降低(如亚马逊用户仅互动1%物品)。
目标:提出RAGx11Rec框架,结合检索增强生成(RAG, Retrieval-Augmented Generation)与Transformer模型,通过两阶段流程(上下文排序+推荐生成)提升冷启动场景下的推荐准确性与效率。
3. 研究流程与方法
3.1 整体框架
研究分为两个核心模块:
- RankRAG模型:筛选用户偏好Top-K上下文。
- 11层Transformer模型:基于排序后的偏好生成Top-N推荐。
3.2 RankRAG模块详细流程
3.2.1 指令微调(Instruction Tuning)
- 数据集:使用AliExpress数据集(Dinstr),构造输入-输出对模拟真实检索排序任务。例如,输入查询“推荐50美元以下的电子产品”,候选物品偏好中仅部分相关。
- 方法:通过监督微调优化损失函数,使LLM区分相关/无关上下文。公式化目标为最小化任务特定损失:
$$\min{\theta} L(M\theta, D{instr})$$
其中$M\theta$为LLM参数,$D_{instr}$为含指令的数据集。
3.2.2 上下文增强微调(Context-Rich Fine-Tuning)
- 数据:使用AliExpress真实用户反馈(评论、评分、行为信号)构建增强数据集(Daug)。
- 目标:优化上下文相关性,公式为:
$$\min{\theta} L(M\theta, D_{aug})$$
3.2.3 检索与重排序
- 检索:基于微调模型检索相关上下文($C{retrieved} = R(q, M{fine})$)。
- 重排序:按相关性分数排序($C{ranked} = \text{sort}(C{retrieved}, s(c|q, M_{fine}))$),选择Top-K偏好($T_k$)。
3.3 Transformer推荐模块
- 输入:Top-K偏好(用户反馈)。
- 处理流程:
1. 嵌入层:将反馈转换为稠密向量($e = W_e x$)。
2. 多头注意力(Multi-Head Attention):计算查询($q$)、键($k$)、值($v$)的注意力分数,公式为:
$$\text{Attention}(q,k,v) = \text{softmax}\left(\frac{qk^T}{\sqrt{d_k}}\right)v$$
3. 11层Transformer编码器:每层含注意力机制、残差连接和MLP。
4. 线性层与评分预测:最终输出预测评分($\hat{y}_i$)。
3.4 实验设计
- 数据集:AliExpress(18类目,205子类,用户评分1-5)和Epinions(社交网络数据)。
- 基线模型:SASRec、NARM、BERT4Rec、GPTRec等。
- 评估指标:MRR@k、NDCG@k、Recall@k(k=5,10)。
4. 主要结果
4.1 RankRAG性能
在AliExpress数据集上,RankRAG的精确度、召回率和F1值均优于PALM和LLaMA 2(图2)。例如,Recall@10达0.4621(冷启动用户),比BERT4Rec高3%。
4.2 RAGx11Rec整体表现
- 全用户场景:NDCG@10为0.454(AliExpress)和0.988(Epinions),显著优于基线(表4,6)。
- 冷启动场景:Recall@10提升9%(表5,7),证明其缓解数据稀疏性的能力。
- 效率:平均推荐耗时79毫秒,优于BERT4Rec(92毫秒)和GPTRec(135毫秒)。
4.3 零样本学习(Zero-Shot Learning)
在未训练新用户数据时,RAGx11Rec预测评分与真实值高度吻合(图8),表明其泛化能力。
5. 结论与价值
科学价值:
- 提出首个结合RAG与Transformer的混合推荐框架,解决冷启动问题。
- 通过RankRAG的指令微调和上下文排序,提升LLM在稀疏数据下的表现。
应用价值:
- 适用于电商平台(如AliExpress、亚马逊)的实时推荐,支持大规模部署。
- 代码与模型参数已公开,为后续研究提供基准。
6. 研究亮点
1. 方法创新:
- 两阶段流程(排序+生成)减少无关上下文干扰。
- 11层Transformer捕获用户偏好长期依赖。
2. 性能突破:
- 在冷启动场景下Recall@10提升9%,超越所有基线。
- 首次实现LLM与高效检索的协同优化。
3. 可扩展性:框架支持集成图结构(如GraphRAG)以增强语义关联,未来可探索多模态推荐。
7. 其他价值
- 实验数据与代码开源,推动可复现性研究。
- 提出轻量化检索器(LightRAG)优化方向,适用于边缘设备。
(全文约2000字)