快手技术团队在2024年ACM Conference上发表了题为《QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou》的研究论文,提出了一种创新的多模态推荐框架。该研究由Xinchen Luo、Jiangxia Cao等20余名来自快手科技(Kuaishou Technology)的研究人员共同完成,旨在解决工业级推荐系统中多模态信息融合的两大核心挑战。
随着多模态大模型(Multi-Modal Large Models, MLLMs)的快速发展,推荐系统领域开始探索利用文本、视觉和音频等多模态信息进行用户兴趣建模。当前工业界主流采用级联范式:先预训练多模态模型生成通用表征,再将其作为固定输入特征提供给下游推荐模型。然而,这种模式存在表征不匹配(representation unmatching)和表征不可学习(representation unlearning)两大问题:前者指预训练目标(如NLP/CV任务)与推荐目标(用户-物品交互)存在本质差异;后者因多模态表征被缓存为静态特征,无法通过推荐模型的梯度进行端到端优化。QARM框架通过项目对齐机制(item alignment)和量化编码机制(quantitative code),首次实现了多模态信息在推荐系统中的定制化与可训练性。
针对表征不匹配问题,研究团队设计了一种基于业务数据微调的多模态表征对齐方案: - 高质量数据构建:从用户2物品(user2item)和物品2物品(item2item)检索模型中提取高质量物品对。例如,根据用户历史点击序列,选择ID表征空间最相似的物品作为触发-目标对。 - 对比学习框架:使用纯多模态表征训练对齐模型,通过批量对比损失(batch-contrastive loss)优化,使MLLM生成的表征(如文本、音频、图像特征)与真实业务交互分布对齐。具体公式为:
m_trigger = MLLM(text_trigger, audio_trigger, image_trigger) m_target = MLLM(text_target, audio_target, image_target) L_align = batch-contrastive(m_trigger, m_target, batch) 实验表明,该机制使冷启动物品的曝光量提升显著(如在线购物场景中长尾商品组L1的CTR-AUC提升0.26%)。
为解决表征不可学习问题,研究提出两种启发式编码方法: - 向量量化(VQ, Vector-Quantized)编码:直接以对齐后的多模态表征作为码本,通过Top-K最近邻搜索生成语义ID。例如设定K=25时,每个物品表征被量化为25个最相似物品的索引组合。 - 残差量化(RQ, Residual-Quantized)编码:采用分层K均值算法(L=6层),逐层量化残差表征。每层生成固定大小(如N=64维)的码本,最终输出层级联的离散编码序列。
两种编码通过嵌入查找(idlookup)转换为可训练特征,支持下游模型的端到端优化。例如在排序阶段,量化编码被用于构建物品侧特征、用户历史交互序列特征以及目标物品感知的交叉特征。
在快手广告和电商场景的AB测试中: - 广告服务:结合VQ和RQ编码的模型使CTR指标提升0.18%(AUC),冷启动商品组的收入增长达9.704%。 - 电商服务:多任务排序模型的GMV(商品交易总额)提升2.296%,长尾物品组(L1)的订单量增长5.381%。
通过t-SNE降维可视化发现,传统MLLM表征(图6a-b)难以区分语义相近但业务特性不同的物品(如两款背心),而经过业务对齐的表征(图6c)能准确反映物品间的商业逻辑关联。
科学贡献:
应用价值:
该研究为工业级推荐系统提供了可扩展的多模态融合方案,其核心思想——”业务对齐+量化学习”范式——已被验证适用于视频、直播、电商等多种场景。论文公开的算法细节(如Algorithm 1的码本生成伪代码)对学术界的后续研究具有重要参考价值。