分享自:

快手定量对齐多模态推荐框架QARM的研究

期刊:ACM ConferenceDOI:10.1145/nnnnnnn.nnnnnnn

快手技术团队在2024年ACM Conference上发表了题为《QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou》的研究论文,提出了一种创新的多模态推荐框架。该研究由Xinchen Luo、Jiangxia Cao等20余名来自快手科技(Kuaishou Technology)的研究人员共同完成,旨在解决工业级推荐系统中多模态信息融合的两大核心挑战。

学术背景与研究目标

随着多模态大模型(Multi-Modal Large Models, MLLMs)的快速发展,推荐系统领域开始探索利用文本、视觉和音频等多模态信息进行用户兴趣建模。当前工业界主流采用级联范式:先预训练多模态模型生成通用表征,再将其作为固定输入特征提供给下游推荐模型。然而,这种模式存在表征不匹配(representation unmatching)表征不可学习(representation unlearning)两大问题:前者指预训练目标(如NLP/CV任务)与推荐目标(用户-物品交互)存在本质差异;后者因多模态表征被缓存为静态特征,无法通过推荐模型的梯度进行端到端优化。QARM框架通过项目对齐机制(item alignment)量化编码机制(quantitative code),首次实现了多模态信息在推荐系统中的定制化与可训练性。

方法论与技术流程

1. 项目对齐机制

针对表征不匹配问题,研究团队设计了一种基于业务数据微调的多模态表征对齐方案: - 高质量数据构建:从用户2物品(user2item)和物品2物品(item2item)检索模型中提取高质量物品对。例如,根据用户历史点击序列,选择ID表征空间最相似的物品作为触发-目标对。 - 对比学习框架:使用纯多模态表征训练对齐模型,通过批量对比损失(batch-contrastive loss)优化,使MLLM生成的表征(如文本、音频、图像特征)与真实业务交互分布对齐。具体公式为:

 m_trigger = MLLM(text_trigger, audio_trigger, image_trigger) m_target = MLLM(text_target, audio_target, image_target) L_align = batch-contrastive(m_trigger, m_target, batch) 

实验表明,该机制使冷启动物品的曝光量提升显著(如在线购物场景中长尾商品组L1的CTR-AUC提升0.26%)。

2. 量化编码机制

为解决表征不可学习问题,研究提出两种启发式编码方法: - 向量量化(VQ, Vector-Quantized)编码:直接以对齐后的多模态表征作为码本,通过Top-K最近邻搜索生成语义ID。例如设定K=25时,每个物品表征被量化为25个最相似物品的索引组合。 - 残差量化(RQ, Residual-Quantized)编码:采用分层K均值算法(L=6层),逐层量化残差表征。每层生成固定大小(如N=64维)的码本,最终输出层级联的离散编码序列。

两种编码通过嵌入查找(idlookup)转换为可训练特征,支持下游模型的端到端优化。例如在排序阶段,量化编码被用于构建物品侧特征、用户历史交互序列特征以及目标物品感知的交叉特征。

实验结果与性能验证

离线测试

在快手广告和电商场景的AB测试中: - 广告服务:结合VQ和RQ编码的模型使CTR指标提升0.18%(AUC),冷启动商品组的收入增长达9.704%。 - 电商服务:多任务排序模型的GMV(商品交易总额)提升2.296%,长尾物品组(L1)的订单量增长5.381%。

可视化分析

通过t-SNE降维可视化发现,传统MLLM表征(图6a-b)难以区分语义相近但业务特性不同的物品(如两款背心),而经过业务对齐的表征(图6c)能准确反映物品间的商业逻辑关联。

创新价值与工业意义

  1. 科学贡献

    • 首次提出通过下游业务数据微调MLLM,解决了多模态表征与推荐目标的任务鸿沟。
    • 设计残差量化编码方案,突破了静态多模态特征无法参与梯度更新的限制。
  2. 应用价值

    • 日均服务4亿用户,在广告和电商场景实现显著收益提升。
    • 特别优化了冷启动和长尾物品的推荐公平性,例如低曝光商品组的日均曝光量提升5.324%(广告场景#1)。

技术亮点

  • 层级量化编码:VQ编码捕捉全局相似性,RQ编码通过残差学习实现细粒度表征,二者互补提升模型性能(联合使用时CTR-AUC额外提升0.14%)。
  • 轻量级部署:量化编码将高维多模态表征压缩为离散ID,避免在线推理时调用大模型,计算效率提升显著。

该研究为工业级推荐系统提供了可扩展的多模态融合方案,其核心思想——”业务对齐+量化学习”范式——已被验证适用于视频、直播、电商等多种场景。论文公开的算法细节(如Algorithm 1的码本生成伪代码)对学术界的后续研究具有重要参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com