分享自:

评估用户嵌入在个性化问答中提示大型语言模型的有效性

期刊:ACMDOI:https://doi.org/xxxxxxx.xxxxxxx

本文档属于类型a(单篇原创研究论文报告),以下是针对该研究的学术报告:


作者及机构
该研究由来自阿里巴巴集团淘宝天猫事业群的Langming Liu†、Shilei Liu†、Yujin Yuan、Yizhen Zhang、Bencheng Yan、Zhiyuan Zeng、Zihao Wang、Jiaqi Liu、Di Wang、Wenbo Su、Wang Pengjie、Jian Xu及Bo Zheng共同完成。论文发表于会议”Conference Acronym ’XX”(2018年6月3-5日,美国伍德斯托克),会议论文集由ACM出版。


学术背景

研究领域与动机
本研究属于自然语言处理(NLP)与推荐系统的交叉领域,聚焦于如何通过用户嵌入(user embedding)提升大语言模型(LLM)在个性化问答中的表现。随着用户对个性化体验需求的增长,传统推荐系统面临信息茧房(information cocoons)问题,而LLM因其丰富的世界知识和多样性被视为突破这一局限的关键工具。然而,直接将用户交互历史作为文本提示(text prompt)存在长度冗余和噪声干扰的挑战。因此,研究团队提出将用户交互序列压缩为紧凑的嵌入表示(即用户嵌入),作为软提示(soft prompt)来激活LLM的个性化生成能力。

研究目标
1. 验证用户嵌入能否有效捕捉用户交互中的关键信息并引导LLM生成个性化响应;
2. 构建标准化评估基准UQABench,覆盖传统推荐任务与新兴LLM需求;
3. 探索用户嵌入在LLM时代的扩展规律(scaling laws)。


研究流程

研究分为三个阶段:预训练(pre-training)、微调(fine-tuning)和评估(evaluating),具体流程如下:

1. 预训练阶段

研究对象与数据
- 数据来源:淘宝用户点击日志,包含184,520用户、994,447商品及31,317,087次交互,附带商品侧信息(如标题、类别、品牌)。
- 预处理:过滤敏感信息、短序列用户及低频商品,确保数据质量。

模型输入与训练方法
- 输入设计:必需项为商品ID,可选项包括ID类(如类别ID)和文本类(如类别名称)侧信息。
- 训练任务:统一采用下一商品预测(next-item prediction, NIP)任务,通过监督学习(交叉熵损失)或对比学习(InfoNCE损失)优化模型。
- 模型选择:评估了GRU4Rec(基于GRU)、SASRec(基于自注意力)、Mamba4Rec(基于状态空间模型)等先进序列推荐模型。

关键创新
- 标准化预训练流程,避免因模型差异导致评估偏差;
- 对比不同输入组合(如仅ID、含文本侧信息)对嵌入质量的影响。

2. 微调阶段

适配器设计
- 目标:将用户嵌入对齐至LLM的语义空间,转化为软提示令牌。
- 压缩方法:比较均值池化(mean pooling)与Q-Former(生成固定长度嵌入),后者需额外训练但性能更优。
- 微调策略:冻结预训练编码器,仅微调解码器或适配器,防止知识遗忘。

3. 评估阶段

评估任务设计
- 序列理解(Sequence Understanding):测试嵌入还原用户历史信息的能力,包括直接特征(如最后点击的商品)和匹配特征(如某类别的点击次数)。
- 行为预测(Action Prediction):评估下一商品及属性预测的准确性,反映传统推荐任务表现。
- 兴趣感知(Interest Perception):分析嵌入对用户长短期兴趣及兴趣轨迹的建模能力。

实验设置
- 基准对比:与基于文本的生成推荐(text-based GRS)对比,后者直接使用20/50条交互记录作为提示。
- 评估指标:通过7,192个自动生成的个性化问答对,量化模型在各项任务中的准确率。


主要结果

  1. 整体性能

    • 最佳嵌入模型(Trm++)在综合评分(53.88)上接近text50(59.32),且在商品预测任务中表现更优,证明嵌入可替代冗长文本提示。
    • 兴趣感知任务中,嵌入模型显著落后于文本方法(如Trm++得68.71 vs. text50得84.29),显示当前框架在多样性生成上的不足。
  2. 消融实验

    • 预训练输入:完整信息(ID+文本侧信息)结合监督学习效果最佳(综合53.88)。
    • 微调策略:Q-Former+全微调性能最优(55.00),但对超参数敏感;均值池化更稳定(53.88)。
  3. 扩展规律

    • 模型规模:编码器参数量从3.2M增至1.2B时,性能持续提升(45.26→64.86),符合对数 scaling law。
    • 序列长度:预训练序列长度超过256后收益递减,提示实际应用中无需过长历史。
  4. 效率优势
    嵌入方法(Trm++仅需133.28 tokens)比文本方法(text50需2498.19 tokens)节省8-19倍计算资源。


结论与价值

科学价值
1. 提出首个针对用户嵌入在LLM个性化问答中效能的评估基准UQABench,填补了传统推荐指标与LLM需求的鸿沟;
2. 揭示用户嵌入的扩展规律,为工业场景资源分配提供依据;
3. 证明嵌入方法在效率与部分任务性能上可替代文本提示,推动轻量化LLM应用。

应用价值
- 为电商、广告等个性化场景提供高效部署方案,平衡响应速度与个性化质量;
- 开源代码与数据集(GitHub)促进后续研究复现与改进。


研究亮点

  1. 创新性评估框架:首次从序列理解、行为预测、兴趣感知三维度系统评估用户嵌入,超越传统推荐指标。
  2. 标准化流程:统一的预训练-微调-评估流程确保结果可比性,避免方法差异干扰。
  3. 实用发现:明确编码器规模与序列长度的收益边界,指导工业实践。

局限与展望
兴趣感知任务表现不足,未来需探索更强大的嵌入对齐方法或混合提示策略。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com