分享自:

基于大语言模型的意图表示学习在推荐系统中的应用

期刊:Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '25)DOI:10.1145/3726302.3730011

基于大语言模型的意图表征学习推荐框架IRLLRec的学术报告

作者及机构
本研究的核心作者团队来自安徽大学:Yu Wang、Lei Sang(通讯作者)、Yi Zhang和Yiwen Zhang。研究成果发表于2025年7月的国际顶级会议《SIGIR ‘25: Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval》,论文标题为《Intent Representation Learning with Large Language Model for Recommendation》。


学术背景

研究领域与动机
该研究属于推荐系统与自然语言处理的交叉领域,聚焦于意图驱动的推荐系统(Intent-based Recommender Systems)。传统协同过滤(Collaborative Filtering, CF)方法虽能捕捉用户-物品交互,但忽略了交互背后的细粒度意图(如用户选择护肤品可能基于“干燥”或“敏感”等具体需求)。现有方法多将意图定义为可学习参数,却忽视了文本信息(如用户评论、商品描述)对缓解交互稀疏性的价值。

核心挑战
1. 跨模态语义对齐:文本与交互数据的表征空间存在固有差异,需解决噪声干扰与空间映射问题。
2. 细粒度意图匹配:需从多模态数据中提取关键意图(如用户偏好“多样菜单”但厌恶“停车困难”),并实现精准对齐。

研究目标
提出IRLLRec框架(Intent Representation Learning with Large Language Model for Recommendation),通过大语言模型(LLMs)构建多模态意图表征,结合双塔架构对齐文本与交互意图,提升推荐性能与可解释性。


研究流程与方法

1. LLM驱动的意图构建

  • 文本意图生成

    • 输入:用户评论、商品描述等文本数据。
    • 方法:采用链式思维(Chain-of-Thought, CoT)提示引导LLM(如GPT-4)生成用户/物品的偏好摘要(如“用户偏好现代清洁环境与素食选项”)。
    • 输出:文本意图向量(如用户意图$I_u$、物品意图$I_i$),通过LLM嵌入层(如text-embeddings-3-large)映射为语义特征$x_u$和$x_i$。
  • 交互意图建模

    • 假设:用户意图$c_u$与物品意图$c_i$服从概率分布$P(c_u|u)$和$P(c_i|i)$。
    • 计算:通过LightGCN图卷积网络(GCN)聚合高阶协同信号,生成意图感知嵌入$r_u$和$r_i$,并利用图结构学习(GSL)过滤噪声。

2. 多意图融合(Multi Intent Fusion, MIF)

  • 双塔编码器
    • 文本塔:线性映射层(MLP)将LLM生成的$x_u/x_i$转换为$z_u/z_i$。
    • 交互塔:基于LightGCN的消息传递机制更新用户/物品嵌入$e_u/e_i$,并通过意图原型($K$个)生成$r_u/r_i$。
  • 意图去噪:基于余弦相似度重构交互图$G^{(l)}$,强化低度节点权重以抑制流行度偏差。

3. 意图对齐(Intent Alignment, IA)

  • 成对对齐(Pairwise Alignment):通过对比学习(InfoNCE损失)最大化文本与交互意图的互信息。
  • 平移对齐(Translation Alignment):添加高斯噪声扰动表征,增强模型对输入噪声的鲁棒性。
  • 损失函数:结合两种对齐策略的加权损失$L_{IA}$。

4. 交互-文本匹配(Interaction-Text Matching, ITM)

  • 动量蒸馏(Momentum Distillation):教师-学生模型架构中,教师模型(动量编码器)生成伪标签指导学生模型优化匹配分数。
  • 损失函数:KL散度衡量分布差异,通过指数移动平均(EMA)更新教师模型参数。

5. 多任务训练

最终目标函数整合对齐损失$L{IA}$、匹配损失$L{ITM}$和L2正则化:
$$L{IRLLRec} = L{IA} + \lambda3 L{ITM} + |\theta|_2^2$$


主要结果

实验验证

  • 数据集:Amazon-Book、Yelp、Amazon-Movie,交互稀疏性分别为2.0×10⁻³、2.3×10⁻³、1.1×10⁻³。
  • 基线模型:对比KAR、RLMRec、AlphaRec及LightGCN等5种基模型,IRLLRec在NDCG@20上平均提升4.39%~12.03%。
  • 稀疏用户表现:在交互最少的用户组中,IRLLRec较RLMRec提升2.31%~5.20%,证明其对冷启动用户的有效性。

关键发现

  1. 双塔架构必要性:移除文本塔或交互塔均导致性能显著下降(图4),验证多模态融合的优势。
  2. 对齐策略贡献:成对对齐主导性能提升(权重0.01~0.03时最优),平移对齐与动量蒸馏进一步优化噪声鲁棒性(图6)。
  3. LLM嵌入质量:使用最新模型(如sfr-embedding-mistral)相比Llama3-8B提升显著(表3),凸显语义表征的重要性。

结论与价值

科学价值
1. 方法论创新:首次将LLM生成的文本意图与图结构交互意图结合,提出双塔对齐范式。
2. 技术贡献:设计成对/平移对齐策略与动量蒸馏匹配机制,解决跨模态噪声与稀疏性问题。

应用价值
- 可解释推荐:通过显式意图摘要(如“用户偏好情感深刻的家庭友好型电影”)增强推荐透明度。
- 工业落地:框架兼容现有推荐模型(如LightGCN、DCCF),代码已开源(GitHub/wangyu0627/irllrec)。


研究亮点

  1. 多模态意图建模:统一文本与交互意图,突破传统CF仅依赖ID嵌入的局限。
  2. 鲁棒对齐机制:联合对比学习与噪声扰动,显著提升稀疏场景下的性能。
  3. 轻量级架构:线性文本编码器与LightGCN的组合兼顾效率与效果,适合大规模部署。

案例佐证
图5展示用户2025的意图演化:训练后其文本与交互意图匹配分数从-0.0005升至0.0399,头部与尾部意图聚焦于“情感深度”与“家庭主题”,证实框架的细粒度对齐能力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com