分享自:

多模态信息增强大语言模型用于序列推荐

期刊:journal of intelligent information systemsDOI:10.1007/s10844-024-00915-3

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多模态信息增强大语言模型的序列推荐框架:MLLM4Rec

作者及发表信息
本研究由西安工程大学(Xi’an Polytechnic University)的Yuxiang Wang、Xin Shi和Xueqing Zhao合作完成,三位作者对研究贡献均等。论文发表于期刊《Journal of Intelligent Information Systems》2025年第63卷,页码745–761,DOI编号10.1007/s10844-024-00915-3。论文于2024年8月23日投稿,同年12月30日在线发表。

学术背景
研究领域为序列推荐系统(Sequential Recommendation, SR),其目标是通过用户历史交互序列预测下一个可能感兴趣的物品。传统方法如基于马尔可夫链(Markov Chains)或深度学习模型(如GRU4Rec、SASRec)存在长序列依赖和跨模态信息融合的局限性。近年来,大语言模型(Large Language Models, LLMs)如GPT-4和LLaMA的兴起为推荐系统带来了新机遇,但现有LLM推荐模型面临两大挑战:
1. 多模态信息利用不足:纯文本输入的LLMs难以处理图像、音频等辅助信息;
2. 长序列处理效率低:用户交互序列长度常超出模型输入限制。

为此,研究团队提出MLLM4Rec框架,旨在通过多模态信息(以图像为主)增强LLMs的推荐性能,同时解决序列长度和效率问题。

研究流程与方法
研究分为四个核心阶段:

  1. 数据预处理

    • 数据集:选用Amazon子数据集(Beauty、Video_Games、Toys_Games)和MovieLens-100k(ML-100k),过滤交互少于5次的用户和物品,按时间排序构建五核(five-core)数据集。
    • 多模态转换:使用预训练模型BLIP2将物品图像转化为文本描述,形成“标题:描述”的混合表示(如“Dirt 3:赛车游戏海报”),以弥合文本与图像模态的语义鸿沟。
  2. 混合提示学习与角色扮演

    • 提示模板设计:结合用户历史交互物品(最多20项)和候选物品(Top 20),通过轻量级序列模型LRURec生成初始候选列表。
    • 角色扮演机制:针对不同数据集定制角色指令(如“您是一位游戏推荐专家”),约束LLMs的生成幻觉(hallucination)。模板结构包括角色声明、输入格式说明和排序任务描述(图2-3)。
  3. 两阶段推荐架构

    • 检索阶段:采用LRURec模型(含嵌入模块、LRU块和预测层)快速筛选候选物品。
    • 排序阶段:基于LLaMA 2模型,通过词汇转换器(vocabulary converter)将输出logits映射为候选物品的排序分数。使用QLoRA技术量化模型,降低GPU内存消耗。
  4. 实验与评估

    • 基线模型:对比LLaMARec(纯文本LLM)、P5(文本到文本范式)、MMSRec(多模态Transformer)等6类模型。
    • 评估指标:NDCG@k、MRR@k、Recall@k(k=5,10),采用留一法(leave-one-out)划分训练/验证/测试集。

主要结果
1. 性能优势:MLLM4Rec在四项数据集上均超越基线模型。例如,在Video_Games数据集上,NDCG@10提升35.3%,MRR@10提升36.9%(表2)。
2. 多模态有效性:图像文本描述显著提升抽象标题(如游戏名称)的推荐效果,但在Beauty数据集上因标题信息充足而提升有限(表3)。
3. 效率优化:限制历史物品和候选物品数量为20,平衡性能与计算效率(图4)。

结论与价值
1. 理论贡献:首次将多模态信息(图像)通过文本描述融入LLM推荐框架,提出混合提示学习和角色扮演方法,解决模态对齐与生成幻觉问题。
2. 应用价值:框架支持零样本(zero-shot)和少样本(few-shot)场景,适用于冷启动和跨域推荐。开源代码发布于GitHub(https://github.com/wangyuxiang123/mllm4rec.git)。

研究亮点
- 方法创新:开发基于BLIP2的图像-文本转换和混合提示模板,使纯文本LLMs具备“阅读”图像的能力。
- 技术整合:结合检索-排序两阶段架构与QLoRA量化,兼顾推荐精度与计算效率。
- 实验全面性:覆盖多领域数据集,验证框架的普适性。

其他发现
研究指出,未来可通过优化提示模板和融合更多模态(如音频、视频)进一步提升性能。此外,角色扮演的领域适配性(如电商vs.娱乐)值得深入探索。


此报告完整呈现了研究的背景、方法、结果与创新点,符合学术传播的严谨性和完整性要求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com