这篇文档属于类型a,即报告单一原创研究的学术论文。以下是针对该研究的详细学术报告:
一、作者与发表信息
本研究由Chao Zhang(中国科学技术大学/认知智能国家重点实验室)、Shiwei Wu(同单位)、Haoxin Zhang(小红书)、Tong Xu*(通讯作者,中国科学技术大学)、Yan Gao(小红书)、Yao Hu(小红书)、Di Wu(小红书)及Enhong Chen*(通讯作者,中国科学技术大学)合作完成,发表于2024年5月的ACM WWW ‘24 Companion会议,标题为《notellm: a retrievable large language model for note recommendation》。
二、学术背景
科学领域:本研究属于信息检索与推荐系统交叉领域,聚焦于大型语言模型(LLM, Large Language Model)在社交平台笔记推荐中的应用。
研究动机:当前基于BERT的笔记推荐方法存在两大局限:1)未能充分利用标签(hashtag)和分类(category)等关键语义线索;2)LLM在自然语言理解上的优势尚未被充分挖掘。社交平台(如小红书)的笔记推荐需兼顾内容相关性与用户兴趣,而传统方法难以平衡两者。
研究目标:提出notellm框架,通过LLM实现多任务学习,同时优化笔记推荐(item-to-item, I2I)和标签/分类生成任务,以提升推荐效果。
三、研究流程与方法
1. 框架设计
notellm包含三个核心组件:
- Note Compression Prompt(笔记压缩提示):将笔记内容压缩为单一特殊标记(如[emb]),同时生成标签/分类。提示模板分为两类:
- 分类生成:输入标题、标签和内容,输出分类(如“旅行→亚洲”)。
- 标签生成:输入标题和内容,输出标签(如“#新加坡旅行”)。
- Generative-Contrastive Learning(生成对比学习, GCL):基于用户行为数据构建相关笔记对,通过对比学习优化压缩标记的嵌入表示。
- Collaborative Supervised Fine-Tuning(协同监督微调, CSFT):联合训练标签/分类生成任务,增强嵌入的语义表达能力。
2. 数据与模型
- 数据集:来自小红书真实场景,训练集包含458,221条笔记和312,564对笔记关联,测试集含257,937条笔记。
- 基础模型:采用Meta的Llama 2(7B参数),通过指令微调适配多任务。
- 协同信号构建:基于用户行为计算笔记共现分数(公式1),筛选高相关笔记对。
3. 实验设计
- 离线评估:对比六种基线方法(如SentenceBERT、PromptEOL),指标包括Recall@k(k=100,1k,10k,100k)和生成质量(BLEU-4、ROUGE)。
- 在线实验:在小红书平台部署,评估点击率(CTR)、评论数等指标。
4. 创新方法
- 多任务提示设计:首次将压缩嵌入与生成任务统一于单一提示模板,实现协同优化。
- 冷启动处理:通过生成任务增强低曝光笔记的嵌入表示,提升长尾覆盖率。
四、主要结果
1. 离线性能
- I2I推荐任务:notellm的Recall@100达84.02%,显著优于SentenceBERT(70.72%)及其他LLM基线(如Repllama的83.63%)。
- 生成任务:分类生成准确率66.17%,标签生成的ROUGE-L达21.03,验证了语义压缩的有效性。
2. 冷启动表现
- 低曝光笔记(占测试集30%)的Recall@100达87.85%,优于高曝光笔记(73.46%),表明生成任务可缓解数据稀疏性问题。
3. 在线效果
- 相比原系统,notellm提升CTR 16.20%,新笔记日均评论数增长3.58%,证实其工业应用价值。
结果逻辑链:
- 压缩标记的嵌入质量(GCL)直接影响推荐效果 → 生成任务(CSFT)通过语义压缩优化嵌入 → 二者协同提升整体性能。
五、结论与价值
科学价值:
1. 首次将LLM引入I2I推荐任务,证明其优于传统BERT模型;
2. 提出“语义压缩”概念,揭示生成任务与嵌入学习的协同机制。
应用价值:
1. 为社交平台提供可扩展的笔记推荐方案,已部署于小红书生产环境;
2. 开源框架设计可推广至其他UGC(用户生成内容)场景。
六、研究亮点
1. 方法创新:统一提示模板实现多任务学习,避免模型冗余;
2. 冷启动优化:通过生成任务增强长尾内容覆盖,优于纯协同过滤方法;
3. 工业落地:首个在千万级笔记池中实现LLM实时检索的案例。
其他价值:
- 提出“幻觉校正”机制(Woodpecker框架的衍生应用),减少生成标签的无关输出。
此研究为LLM在推荐系统的应用提供了新范式,其多任务协同设计或可启发后续跨模态推荐研究。