多模态信息增强大语言模型用于序列推荐

分享自：
多模态信息增强大语言模型用于序列推荐

期刊:journal of intelligent information systemsDOI:10.1007/s10844-024-00915-3
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
多模态信息增强大语言模型的序列推荐框架：MLLM4Rec
作者及发表信息
 本研究由西安工程大学（Xi’an Polytechnic University）的Yuxiang Wang、Xin Shi和Xueqing Zhao合作完成，三位作者对研究贡献均等。论文发表于期刊《Journal of Intelligent Information Systems》2025年第63卷，页码745–761，DOI编号10.1007/s10844-024-00915-3。论文于2024年8月23日投稿，同年12月30日在线发表。
学术背景
 研究领域为序列推荐系统（Sequential Recommendation, SR），其目标是通过用户历史交互序列预测下一个可能感兴趣的物品。传统方法如基于马尔可夫链（Markov Chains）或深度学习模型（如GRU4Rec、SASRec）存在长序列依赖和跨模态信息融合的局限性。近年来，大语言模型（Large Language Models, LLMs）如GPT-4和LLaMA的兴起为推荐系统带来了新机遇，但现有LLM推荐模型面临两大挑战：
 1. 多模态信息利用不足：纯文本输入的LLMs难以处理图像、音频等辅助信息；
 2. 长序列处理效率低：用户交互序列长度常超出模型输入限制。
为此，研究团队提出MLLM4Rec框架，旨在通过多模态信息（以图像为主）增强LLMs的推荐性能，同时解决序列长度和效率问题。
研究流程与方法
 研究分为四个核心阶段：
数据预处理
数据集：选用Amazon子数据集（Beauty、Video_Games、Toys_Games）和MovieLens-100k（ML-100k），过滤交互少于5次的用户和物品，按时间排序构建五核（five-core）数据集。
 
多模态转换：使用预训练模型BLIP2将物品图像转化为文本描述，形成“标题:描述”的混合表示（如“Dirt 3:赛车游戏海报”），以弥合文本与图像模态的语义鸿沟。
 
混合提示学习与角色扮演
提示模板设计：结合用户历史交互物品（最多20项）和候选物品（Top 20），通过轻量级序列模型LRURec生成初始候选列表。
 
角色扮演机制：针对不同数据集定制角色指令（如“您是一位游戏推荐专家”），约束LLMs的生成幻觉（hallucination）。模板结构包括角色声明、输入格式说明和排序任务描述（图2-3）。
 
两阶段推荐架构
检索阶段：采用LRURec模型（含嵌入模块、LRU块和预测层）快速筛选候选物品。
 
排序阶段：基于LLaMA 2模型，通过词汇转换器（vocabulary converter）将输出logits映射为候选物品的排序分数。使用QLoRA技术量化模型，降低GPU内存消耗。
 
实验与评估
基线模型：对比LLaMARec（纯文本LLM）、P5（文本到文本范式）、MMSRec（多模态Transformer）等6类模型。
 
评估指标：NDCG@k、MRR@k、Recall@k（k=5,10），采用留一法（leave-one-out）划分训练/验证/测试集。
 
主要结果
 1. 性能优势：MLLM4Rec在四项数据集上均超越基线模型。例如，在Video_Games数据集上，NDCG@10提升35.3%，MRR@10提升36.9%（表2）。
 2. 多模态有效性：图像文本描述显著提升抽象标题（如游戏名称）的推荐效果，但在Beauty数据集上因标题信息充足而提升有限（表3）。
 3. 效率优化：限制历史物品和候选物品数量为20，平衡性能与计算效率（图4）。
结论与价值
 1. 理论贡献：首次将多模态信息（图像）通过文本描述融入LLM推荐框架，提出混合提示学习和角色扮演方法，解决模态对齐与生成幻觉问题。
 2. 应用价值：框架支持零样本（zero-shot）和少样本（few-shot）场景，适用于冷启动和跨域推荐。开源代码发布于GitHub（https://github.com/wangyuxiang123/mllm4rec.git）。
研究亮点
 - 方法创新：开发基于BLIP2的图像-文本转换和混合提示模板，使纯文本LLMs具备“阅读”图像的能力。
 - 技术整合：结合检索-排序两阶段架构与QLoRA量化，兼顾推荐精度与计算效率。
 - 实验全面性：覆盖多领域数据集，验证框架的普适性。
其他发现
 研究指出，未来可通过优化提示模板和融合更多模态（如音频、视频）进一步提升性能。此外，角色扮演的领域适配性（如电商vs.娱乐）值得深入探索。
此报告完整呈现了研究的背景、方法、结果与创新点，符合学术传播的严谨性和完整性要求。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问