分享自:

Lettingo:探索推荐系统中的用户画像生成

期刊:ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)DOI:10.1145/3711896.3737024

本文档属于类型a:单篇原创研究报告。以下是针对该研究的学术报告:


Lettingo框架:基于大语言模型的用户画像生成方法在推荐系统中的创新应用

作者及机构
本研究由微软亚洲研究院(Microsoft Corporation)的Lu Wang、Fangkai Yang、Pu Zhao、Jianfeng Liu、Yuefeng Zhan、Hao Sun、Qingwei Lin、Weiwei Deng、Dongmei Zhang、Feng Sun、Qi Zhang与北京大学(Peking University)的Di Zhang(实习期间完成)合作完成,发表于2025年8月的ACM SIGKDD国际会议(KDD ‘25),论文标题为《Lettingo: Explore User Profile Generation for Recommendation System》。


学术背景

研究领域与动机
用户画像(User Profiling)是现代推荐系统的核心组件,其目标是将用户交互数据转化为结构化表征以驱动个性化推荐。传统基于嵌入(embedding)的方法存在两大局限:
1. 可解释性差:数值化向量难以直观反映用户偏好;
2. 适应性不足:难以动态更新(如冷启动问题)且忽略上下文信号(如时序依赖)。
近年来,大语言模型(LLM, Large Language Model)因其语义理解能力为文本化用户画像提供了新思路,但现有方法受限于固定格式的生成模板,无法充分捕捉用户行为的多样性。

研究目标
Lettingo旨在通过以下创新解决上述问题:
- 利用LLM的生成能力探索多样化、无固定格式的用户画像;
- 通过下游推荐任务的反馈优化画像生成过程,实现任务驱动的自适应画像。


研究流程与方法

Lettingo框架分为三个阶段,以下详述各阶段的设计与实施:

1. 画像探索(Profile Exploration)

研究对象与样本量
在MovieLens-10M、Amazon Books、Yelp三个数据集上筛选历史交互记录≥70条的用户,测试集包含2000名用户,训练集采样3000名用户(分30/50/70条历史交互三组)。

方法细节
- 多样化生成:使用GPT-4o-mini、Llama 3、Claude等开源/闭源LLM生成用户画像,每个用户生成10条候选画像,采样温度(temperature=1.0)以鼓励多样性。
- 提示词设计:通用模板引导LLM基于用户长期历史(long history)生成画像,例如:
> “根据用户行为历史[user history],生成包含尽可能多有用信息的画像,以预测其对目标项目的兴趣。”

创新点
避免监督微调(SFT)的格式限制,通过多模型采样覆盖广泛偏好表征。

2. 任务驱动评估(Task-Driven Evaluation)

实验设计
- 输入构造:将画像与用户近期交互(recent history)结合,输入下游推荐系统(Llama 3 8B Instruct)预测目标项目兴趣(三类:喜欢/中性/不喜欢)。
- 评估指标:准确率(Accuracy)与加权F1值(Weighted-F1)。
- 偏好数据构建:根据推荐结果正确性标注画像为正例(p+)或负例(p-),形成成对偏好数据(pairwise preference data)。

关键发现
- 画像长度与性能的非线性关系:如图1所示,输入长度超过阈值后性能下降,验证噪声过滤的必要性。

3. 画像偏好对齐(Profile Preference Alignment)

算法实现
- 直接偏好优化(DPO, Direct Preference Optimization):采用DPO损失函数(公式3)微调画像生成器,避免SFT的格式僵化问题:
ℒ_DPO = −E[logσ(𝑓_LLM(p+ | h) − 𝑓_LLM(p− | h))]
- 数据流水线:算法1(Optimized Data Collection)自动化生成训练数据,确保正/负画像均衡。

模型选择
以Llama 3 8B为基座模型,对比实验显示DPO优化后准确率提升显著(如Amazon Books数据集+6.7%)。


主要结果

  1. 性能对比(RQ1)

    • Lettingo在三个数据集上平均准确率提升20%,显著优于基线方法(如KAR、PALR)。例如,Amazon Books任务中准确率达66.30%(F1=69.04%)。
    • 消融实验(RQ2)证明DPO的关键作用:Yelp数据集准确率提升4.2%。
  2. 历史长度影响(RQ3)

    • 长历史(70条)在MovieLens上效果最佳(53.00%准确率),但稀疏数据集(如Yelp)中30条历史更优,表明需动态调整输入长度。
  3. 可解释性案例(RQ4)

    • 图4展示多领域画像差异:MovieLens以叙事风格描述情感偏好,Yelp采用结构化分类(如“兴趣:墨西哥菜”),验证框架的领域适应性。
    • 图5案例显示,画像能补全短期历史遗漏的长期偏好(如用户对“科幻+喜剧”的隐含兴趣)。

结论与价值

科学价值
- 提出首个融合LLM多样化生成与任务驱动优化的用户画像框架,突破固定格式限制。
- 验证DPO在推荐系统中的有效性,为LLM与推荐系统的结合提供新范式。

应用价值
- 提升推荐准确性(如冷启动场景)的同时增强可解释性,适用于电商、流媒体等高动态场景。


研究亮点

  1. 方法创新
    • 三阶段流程(探索-评估-对齐)平衡生成多样性与任务相关性;
    • DPO替代传统SFT,实现无格式约束的优化。
  2. 实验设计
    • 跨领域数据集验证(电影、书籍、餐饮);
    • 开源模型(Llama 3)与闭源模型(GPT-4o)的横向对比。
  3. 可扩展性
    框架可迁移至其他LLM(如Qwen2.5 7B),为后续研究提供基准。

其他价值

  • 公开数据集与代码(Llama-Factory实现),促进社区复现与改进;
  • 指出未来方向:动态历史长度选择、多模态画像生成。

(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com