本文档属于类型a(单篇原创研究论文报告),以下是针对该研究的学术报告:
作者及机构
该研究由来自阿里巴巴集团淘宝天猫事业群的Langming Liu†、Shilei Liu†、Yujin Yuan、Yizhen Zhang、Bencheng Yan、Zhiyuan Zeng、Zihao Wang、Jiaqi Liu、Di Wang、Wenbo Su、Wang Pengjie、Jian Xu及Bo Zheng共同完成。论文发表于会议”Conference Acronym ’XX”(2018年6月3-5日,美国伍德斯托克),会议论文集由ACM出版。
研究领域与动机
本研究属于自然语言处理(NLP)与推荐系统的交叉领域,聚焦于如何通过用户嵌入(user embedding)提升大语言模型(LLM)在个性化问答中的表现。随着用户对个性化体验需求的增长,传统推荐系统面临信息茧房(information cocoons)问题,而LLM因其丰富的世界知识和多样性被视为突破这一局限的关键工具。然而,直接将用户交互历史作为文本提示(text prompt)存在长度冗余和噪声干扰的挑战。因此,研究团队提出将用户交互序列压缩为紧凑的嵌入表示(即用户嵌入),作为软提示(soft prompt)来激活LLM的个性化生成能力。
研究目标
1. 验证用户嵌入能否有效捕捉用户交互中的关键信息并引导LLM生成个性化响应;
2. 构建标准化评估基准UQABench,覆盖传统推荐任务与新兴LLM需求;
3. 探索用户嵌入在LLM时代的扩展规律(scaling laws)。
研究分为三个阶段:预训练(pre-training)、微调(fine-tuning)和评估(evaluating),具体流程如下:
研究对象与数据
- 数据来源:淘宝用户点击日志,包含184,520用户、994,447商品及31,317,087次交互,附带商品侧信息(如标题、类别、品牌)。
- 预处理:过滤敏感信息、短序列用户及低频商品,确保数据质量。
模型输入与训练方法
- 输入设计:必需项为商品ID,可选项包括ID类(如类别ID)和文本类(如类别名称)侧信息。
- 训练任务:统一采用下一商品预测(next-item prediction, NIP)任务,通过监督学习(交叉熵损失)或对比学习(InfoNCE损失)优化模型。
- 模型选择:评估了GRU4Rec(基于GRU)、SASRec(基于自注意力)、Mamba4Rec(基于状态空间模型)等先进序列推荐模型。
关键创新
- 标准化预训练流程,避免因模型差异导致评估偏差;
- 对比不同输入组合(如仅ID、含文本侧信息)对嵌入质量的影响。
适配器设计
- 目标:将用户嵌入对齐至LLM的语义空间,转化为软提示令牌。
- 压缩方法:比较均值池化(mean pooling)与Q-Former(生成固定长度嵌入),后者需额外训练但性能更优。
- 微调策略:冻结预训练编码器,仅微调解码器或适配器,防止知识遗忘。
评估任务设计
- 序列理解(Sequence Understanding):测试嵌入还原用户历史信息的能力,包括直接特征(如最后点击的商品)和匹配特征(如某类别的点击次数)。
- 行为预测(Action Prediction):评估下一商品及属性预测的准确性,反映传统推荐任务表现。
- 兴趣感知(Interest Perception):分析嵌入对用户长短期兴趣及兴趣轨迹的建模能力。
实验设置
- 基准对比:与基于文本的生成推荐(text-based GRS)对比,后者直接使用20/50条交互记录作为提示。
- 评估指标:通过7,192个自动生成的个性化问答对,量化模型在各项任务中的准确率。
整体性能
消融实验
扩展规律
效率优势
嵌入方法(Trm++仅需133.28 tokens)比文本方法(text50需2498.19 tokens)节省8-19倍计算资源。
科学价值
1. 提出首个针对用户嵌入在LLM个性化问答中效能的评估基准UQABench,填补了传统推荐指标与LLM需求的鸿沟;
2. 揭示用户嵌入的扩展规律,为工业场景资源分配提供依据;
3. 证明嵌入方法在效率与部分任务性能上可替代文本提示,推动轻量化LLM应用。
应用价值
- 为电商、广告等个性化场景提供高效部署方案,平衡响应速度与个性化质量;
- 开源代码与数据集(GitHub)促进后续研究复现与改进。
局限与展望
兴趣感知任务表现不足,未来需探索更强大的嵌入对齐方法或混合提示策略。