这篇文档属于类型a,是一篇关于原创研究的学术论文。以下是详细的学术报告:
主要作者与机构
本研究由以下作者合作完成:
- Yuhan Li(香港科技大学广州校区)
- Xinni Zhang(香港中文大学)
- Linhao Luo(澳大利亚莫纳什大学)
- Heng Chang(华为技术有限公司北京研究所)
- Yuxiang Ren(华为技术有限公司上海研究所)
- Irwin King(香港中文大学)
- Jia Li(香港科技大学广州校区,通讯作者)
论文标题为《G-RecFer: Graph Retrieval-Augmented Large Language Model for Explainable Recommendation》,发表于ACM Web Conference 2025 (WWW ‘25),会议地点为澳大利亚悉尼。论文已开源,代码和数据可在GitHub获取。
学术背景
研究领域与动机
本研究属于可解释推荐系统(Explainable Recommendation)领域,结合了图检索(Graph Retrieval)与大语言模型(Large Language Models, LLMs)技术。现有推荐系统虽能预测用户兴趣,但缺乏透明性,用户难以理解推荐逻辑。传统方法通过协同过滤(Collaborative Filtering, CF)或图神经网络(Graph Neural Networks, GNNs)提取隐含特征,但存在两大挑战:
1. CF信号隐式化:GNN生成的用户-物品嵌入难以直接解释。
2. 模态鸿沟(Modality Gap):图结构与自然语言之间的差异阻碍LLMs有效利用图信息。
本研究提出G-RecFer框架,旨在通过显式检索用户-物品交互图中的CF信号,生成个性化、可解释的推荐理由。
研究流程与方法
1. 混合图检索机制(Hybrid Graph Retrieval)
- 目标:从结构(路径)和语义(节点)两个视角显式提取CF信息。
- 路径级检索器(Path-Level Retriever):
- 基于GNN(如R-GCN或LightGCN)学习用户-物品交互图的嵌入。
- 通过Page-Link算法学习边掩码(Edge Mask),利用Dijkstra最短路径算法提取前k条解释路径。
- 创新点:引入m-core剪枝去除低度数节点,提升路径质量。
- 节点级检索器(Node-Level Retriever):
- 使用双编码器(Dual-Encoder)计算用户和物品的语义相似性,检索Top-k相关节点。
- 语义相似性通过预训练语言模型(如Sentence-BERT)生成。
- 图翻译(Graph Translation):将检索的路径和节点转化为自然语言描述,供LLMs理解。
2. 知识剪枝(Knowledge Pruning)
- 动机:部分用户-物品对的推荐理由可直接从其属性生成,无需额外CF信息。
- 方法:通过计算用户-物品属性与真实解释的语义相似性,过滤冗余样本(剪枝比例t=70%),提升训练效率。
3. 检索增强微调(Retrieval-Augmented Fine-Tuning, RAFT)
- 目标:增强LLMs利用检索到的CF信息生成解释的能力。
- 方法:
- 采用轻量级LoRA(Low-Rank Adaptation)微调策略,减少参数量。
- 输入包括用户/物品属性、检索的CF信息及提示模板,通过语言建模损失优化生成结果。
主要结果
实验设计与数据集
在三个公开数据集(Amazon-Books、Yelp、Google-Reviews)上评估,对比5种基线模型(如NRT、XRec)。
关键性能指标
- 可解释性(Explainability):
- BERTScore:G-RecFer在BERT F1分数上较最优基线(XRec)提升1.67%-2.81%,其中BERT Recall提升显著(4.56%-8.67%),表明生成的解释包含更多关键信息。
- 人类评估:在Yelp和Google-Reviews数据集上,80%以上的案例中G-RecFer的解释更受青睐。
- 稳定性(Stability):标准差低于基线,表明生成质量更稳定。
案例研究
例如,用户因“共同喜欢漫威电影”或“演员本尼迪克特·康伯巴奇”而推荐《奇异博士》,G-RecFer能显式结合路径(用户A→物品1→用户B→物品2)和语义(演员关联)生成解释。
结论与价值
科学价值
- 方法创新:首次将图检索增强技术与LLMs结合,解决可解释推荐中的隐式CF和模态鸿沟问题。
- 性能突破:在多个指标上超越SOTA,尤其通过显式路径和节点检索提升解释的完整性和个性化。
应用价值
- 商业场景:帮助电商、内容平台提供透明推荐,增强用户信任。
- 技术扩展:框架可迁移至其他需结合图结构与自然语言的任务(如知识图谱推理)。
研究亮点
- 多粒度检索:同时利用路径(结构)和节点(语义)信息,覆盖更全面的CF信号。
- 轻量级微调:通过LoRA和知识剪枝降低计算成本,适合大规模图数据。
- 可解释性增强:显式路径生成使推荐逻辑可验证,减少LLMs的幻觉风险。
其他价值
- 开源贡献:公开代码与数据,推动可解释推荐领域的复现与改进。
- 跨领域启示:为图结构与大语言模型的融合提供了新范式。