当大视觉语言模型遇到多模态顺序推荐：一项实证研究

分享自：
当大视觉语言模型遇到多模态顺序推荐：一项实证研究

期刊:ACMDOI:10.1145/3696410.3714764
这篇文档属于类型a，是一篇关于大型视觉语言模型（Large Vision-Language Models, LVLMs）在多模态序列推荐（Multimodal Sequential Recommendation, MSR）中应用的原创性研究论文。以下是针对中文读者的学术研究报告：
大型视觉语言模型与多模态序列推荐的实证研究：MSRBench基准的构建与评估一、研究团队与发表信息本研究由来自香港科技大学（广州）的Peilin Zhou、字节跳动的Chao Liu和Jing Ren，以及北京大学、阿联酋穆罕默德·本·扎耶德人工智能大学等多机构的学者合作完成，发表于ACM Web Conference 2025 (WWW ’25)。通讯作者为香港科技大学（广州）的Sunghun Kim。
二、学术背景与研究动机科学领域：研究聚焦于多模态序列推荐（MSR），结合视觉（图像）与文本（标题）数据提升推荐系统性能。
 
研究背景：现有MSR系统通过独立编码器处理多模态数据，但模态间的复杂关联常被忽略，导致性能受限。近年来，大型视觉语言模型（LVLMs）在跨模态任务（如视觉问答、图像描述）中表现卓越，但其在MSR中的应用尚未系统研究。
 
研究目标：构建首个综合性基准MSRBench，评估LVLMs在不同整合策略下的性能，探索其在推荐系统中的最优应用方式。
三、研究流程与方法数据集构建：
基于Amazon Review数据集，新增LVLMs生成的图像描述，构建扩展数据集Amazon Review Plus（覆盖美容、运动、玩具、服装四类商品，含64,160张图像的文本描述）。
 
数据划分：按用户交互序列采用留一法（leave-one-out），最后一项为测试集，倒数第二项为验证集，其余为训练集。
 
LVLMs整合策略设计：
 提出五种策略（图1）：
S1（推荐器）：LVLM直接基于用户历史交互的图像和标题生成推荐。
 
S2（项目增强器）：LVLM将图像转为文本描述，用于丰富商品元数据。
 
S3（重排序器）：LVLM对传统推荐模型（如SASRec）的输出列表重新排序。
 
S4（增强器+推荐器）：组合S1和S2，基于文本描述生成推荐。
 
S5（增强器+重排序器）：组合S2和S3，先增强描述再重排序。
 
实验设置：
模型选择：评估三款商用LVLMs（GPT-4 Vision、GPT-4o、Claude-3-Opus）及开源模型（如Qwen-VL）。
 
基线模型：包括传统序列推荐（SASRec）、多模态推荐（MMGCN、BM3）和两阶段模型（MOREC）。
 
评估指标：Top-k命中率（H@k）和归一化折扣累积增益（N@k），采样400用户以减少计算成本。
 
数据分析流程：
模态影响分析：对比仅文本、仅图像及多模态输入的推荐效果。
 
计算效率评估：记录训练和推理时间，分析工业化部署的可行性。
 
四、主要研究结果性能对比（表1）：
S3（重排序器）表现最佳：在美容类目下，GPT-4o的H@1达38.85%，显著高于S1（23.37%）。
 
组合策略（S4/S5）未持续优于单策略：例如，S5在部分场景中不如S3，说明信息转换可能损失精度。
 
GPT-4o全面领先：其在所有策略中表现最优，尤其是在重排序任务中。
 
模态与输入模式分析（图3）：
文本标题是关键：仅图像输入的推荐效果接近随机（H@1≈5%），而文本+图像组合未显著提升性能。
 
图像拼接优于单张输入：拼接历史交互图像（按时间顺序）更利于捕捉用户偏好。
 
效率瓶颈（表2）：
LVLMs推理延迟高（GPT-4v约42秒/用户），而传统模型（如SASRec）仅需0.0025秒，制约实时应用。
 
S2（项目增强器）最高效：训练时间与基线相当，适合工业化部署。
 
案例研究（图6）：
LVLMs提供解释性推荐（如“用户偏好流行角色相关的玩偶”），而传统模型（SASRec）缺乏可解释性。
 
五、结论与价值科学价值：
 首次系统验证LVLMs在MSR中的潜力，确立重排序（S3）为最优策略。
 
提出MSRBench基准，为后续研究提供标准化评估框架。
 
应用价值：
 为电商平台优化多模态推荐提供实践指导，如优先采用GPT-4o进行结果重排序。
 
指出计算效率是当前LVLMs落地的核心挑战，需进一步优化。
 
六、研究亮点方法创新：
 设计五种LVLMs整合策略，覆盖推荐全流程。
 
构建Amazon Review Plus数据集，公开LVLM生成的图像描述以降低复现成本。
 
重要发现：
 LVLMs作为重排序器可显著提升推荐准确性，但直接生成推荐（S1）效果有限。
 
多模态融合中，文本描述的主导性远超图像原始数据。
 
七、其他补充局限性：未探索LVLMs的微调潜力，未来可结合领域适配（Domain Adaptation）进一步优化。
 
伦理考量：数据集匿名化处理，但需警惕LVLMs可能放大的数据偏见（如商品推荐中的性别刻板印象）。
 
此研究为多模态推荐领域提供了重要基准，同时揭示了LVLMs在实际应用中的优势与瓶颈，对学术界和工业界均具有指导意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问