快手定量对齐多模态推荐框架QARM的研究

分享自：

快手定量对齐多模态推荐框架QARM的研究

期刊:ACM ConferenceDOI:10.1145/nnnnnnn.nnnnnnn

快手技术团队在2024年ACM Conference上发表了题为《QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou》的研究论文，提出了一种创新的多模态推荐框架。该研究由Xinchen Luo、Jiangxia Cao等20余名来自快手科技（Kuaishou Technology）的研究人员共同完成，旨在解决工业级推荐系统中多模态信息融合的两大核心挑战。

学术背景与研究目标

随着多模态大模型（Multi-Modal Large Models, MLLMs）的快速发展，推荐系统领域开始探索利用文本、视觉和音频等多模态信息进行用户兴趣建模。当前工业界主流采用级联范式：先预训练多模态模型生成通用表征，再将其作为固定输入特征提供给下游推荐模型。然而，这种模式存在表征不匹配（representation unmatching）和表征不可学习（representation unlearning）两大问题：前者指预训练目标（如NLP/CV任务）与推荐目标（用户-物品交互）存在本质差异；后者因多模态表征被缓存为静态特征，无法通过推荐模型的梯度进行端到端优化。QARM框架通过项目对齐机制（item alignment）和量化编码机制（quantitative code），首次实现了多模态信息在推荐系统中的定制化与可训练性。

方法论与技术流程

1. 项目对齐机制

针对表征不匹配问题，研究团队设计了一种基于业务数据微调的多模态表征对齐方案： - 高质量数据构建：从用户2物品（user2item）和物品2物品（item2item）检索模型中提取高质量物品对。例如，根据用户历史点击序列，选择ID表征空间最相似的物品作为触发-目标对。 - 对比学习框架：使用纯多模态表征训练对齐模型，通过批量对比损失（batch-contrastive loss）优化，使MLLM生成的表征（如文本、音频、图像特征）与真实业务交互分布对齐。具体公式为：

 m_trigger = MLLM(text_trigger, audio_trigger, image_trigger) m_target = MLLM(text_target, audio_target, image_target) L_align = batch-contrastive(m_trigger, m_target, batch)

实验表明，该机制使冷启动物品的曝光量提升显著（如在线购物场景中长尾商品组L1的CTR-AUC提升0.26%）。

2. 量化编码机制

为解决表征不可学习问题，研究提出两种启发式编码方法： - 向量量化（VQ, Vector-Quantized）编码：直接以对齐后的多模态表征作为码本，通过Top-K最近邻搜索生成语义ID。例如设定K=25时，每个物品表征被量化为25个最相似物品的索引组合。 - 残差量化（RQ, Residual-Quantized）编码：采用分层K均值算法（L=6层），逐层量化残差表征。每层生成固定大小（如N=64维）的码本，最终输出层级联的离散编码序列。

两种编码通过嵌入查找（idlookup）转换为可训练特征，支持下游模型的端到端优化。例如在排序阶段，量化编码被用于构建物品侧特征、用户历史交互序列特征以及目标物品感知的交叉特征。

实验结果与性能验证

离线测试

在快手广告和电商场景的AB测试中： - 广告服务：结合VQ和RQ编码的模型使CTR指标提升0.18%（AUC），冷启动商品组的收入增长达9.704%。 - 电商服务：多任务排序模型的GMV（商品交易总额）提升2.296%，长尾物品组（L1）的订单量增长5.381%。

可视化分析

通过t-SNE降维可视化发现，传统MLLM表征（图6a-b）难以区分语义相近但业务特性不同的物品（如两款背心），而经过业务对齐的表征（图6c）能准确反映物品间的商业逻辑关联。

创新价值与工业意义

科学贡献：
- 首次提出通过下游业务数据微调MLLM，解决了多模态表征与推荐目标的任务鸿沟。
- 设计残差量化编码方案，突破了静态多模态特征无法参与梯度更新的限制。
应用价值：
- 日均服务4亿用户，在广告和电商场景实现显著收益提升。
- 特别优化了冷启动和长尾物品的推荐公平性，例如低曝光商品组的日均曝光量提升5.324%（广告场景#1）。

技术亮点

层级量化编码：VQ编码捕捉全局相似性，RQ编码通过残差学习实现细粒度表征，二者互补提升模型性能（联合使用时CTR-AUC额外提升0.14%）。
轻量级部署：量化编码将高维多模态表征压缩为离散ID，避免在线推理时调用大模型，计算效率提升显著。

该研究为工业级推荐系统提供了可扩展的多模态融合方案，其核心思想——”业务对齐+量化学习”范式——已被验证适用于视频、直播、电商等多种场景。论文公开的算法细节（如Algorithm 1的码本生成伪代码）对学术界的后续研究具有重要参考价值。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问