360 AI Research团队提出跨模态检索新框架RZenEmbed:实现文本、图像、视频与视觉文档的统一表征学习
作者及机构
本研究的核心团队来自360 AI Research,主要作者包括Weijian Jian、Yajun Zhang、Dawei Liang、Chunyu Xie、Yixiao He,通讯作者为Dawei Leng(邮箱:lengdawei@360.cn)。研究以预印本形式发布于arXiv平台(编号:arXiv:2510.27350v1),暂未标注正式期刊信息,但代码与模型已开源(Hugging Face仓库:qihoo360/rzenembed)。
学术背景
随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,基于CLIP(Contrastive Language-Image Pretraining)的框架已成为跨模态检索的主流方法。然而,现有研究多聚焦于自然图像与文本的配对,对视频、视觉文档(如PDF、PPT等布局敏感的视觉内容)等模态的支持不足。这种局限性阻碍了通用检索系统在真实场景(如AI代理、多模态搜索推荐)中的应用。
为此,研究团队提出RZenEmbed,旨在构建一个统一的嵌入空间,支持文本、图像、视频和视觉文档的跨模态检索。其核心科学问题包括:
1. 数据噪声:训练批次中存在的假阴性样本(False Negatives,即语义相似但被误标为负样本)和难负样本(Hard Negatives,语义相近但类别不同的样本)会损害模型判别能力;
2. 温度参数僵化:传统InfoNCE损失函数使用固定温度参数,无法适应不同任务(如细粒度文档检索与粗粒度视频检索)的相似性分布需求;
3. 提示设计不足:生成式预训练模型(如Qwen2-VL)缺乏针对判别式检索任务的优化提示策略。
方法论与工作流程
研究采用两阶段训练策略,结合多项创新技术:
1. 模型架构
- 主干网络:基于Qwen2-VL(Wang et al., 2024b),支持动态分辨率输入和多模态旋转位置编码(M-RoPE),擅长处理长上下文和时序特征。
- 输入设计:支持图像、视频帧序列及文本指令(如“检索证明此图像问题的维基百科图文对”)。
- 嵌入提取:从LLM最后一层隐藏状态中提取[EOS]标记的向量作为统一表征。
2. 训练策略
- 第一阶段(多模态持续预训练):
- 数据混合:300k文本对(MS-MARCO、NQ)、200万图文对(LAION-2B)、250万视频描述对(ShareGPT4V)、250万融合模态对(MegaPairs)。
- 数据增强:使用CogVLM-19B对LAION-2B图像生成细粒度描述(如将“猫”扩展为“阳光下晒太阳的橘色虎斑猫”),提升语义对齐能力。
- 第二阶段(指令微调):
- 任务覆盖:图像分类、视觉问答(VQA)、视觉文档检索(VisDoc)、视频时刻检索(Moment Retrieval)等7类任务。
- 关键创新:
- 假阴性过滤:若负样本与正样本的相似度超过阈值(δ=0.95),则从损失计算中排除。
- 难样本加权:对难负样本(相似度高)赋予指数权重(wi = exp(α·sim(q, k⁻)), α=9),强化模型区分能力(公式4)。
- 可学习温度:为每类任务分配独立温度参数τₜ=exp(θₜ),动态优化相似度分布锐度。
- 提示工程:系统提示(如“用一词总结用户意图”)与表征提示(如“用一词表征给定图像”)结合,引导生成判别式嵌入。
- 模型集成(Model Souping):合并多个LoRA适配器的低秩权重矩阵,提升泛化性。
主要结果
研究在MMEB-V1和MMEB-V2基准测试中验证性能:
1. 性能对比
- MMEB-V1:RZenEmbed(7B参数)以75.9%平均分刷新纪录,较次优模型(B3, 72.0%)提升3.9%,在图像分类(70.6%)、视觉文档检索(92.1%)等任务中表现突出。
- MMEB-V2:7B模型在视频检索(55.7%)和视觉文档检索(77.1%)任务中超越闭源模型SEED-1.6-Embedding(75.2%),综合得分达71.6%。
2. 消融实验
- 策略贡献度:合并分类数据集(+0.6%)、可学习温度(+0.7%)、系统提示(+0.7%)逐步提升性能,最终组合策略(Exp5)达到67.2%。
- 模型集成效果:LoRA适配器融合(Model Souping)进一步将整体分数从71.18%提升至71.61%。
结论与价值
RZenEmbed通过两阶段训练和多项技术创新,实现了跨模态检索的三大突破:
1. 通用性:首次统一支持文本、图像、视频和视觉文档的嵌入学习;
2. 鲁棒性:假阴性过滤与难样本加权机制显著提升模型抗噪声能力;
3. 适应性:任务特异性温度参数和提示设计优化了多场景下的判别性能。
其科学价值在于为多模态表征学习提供了可扩展的框架,应用价值则体现在增强AI代理的跨模态理解能力,推动检索增强生成(Retrieval-Augmented Generation, RAG)技术的发展。
研究亮点
1. 创新训练目标:改进的InfoNCE损失函数结合动态加权与假阴性过滤,优于传统对比学习;
2. 多模态兼容性:首次在统一框架中解决视频时序对齐与视觉文档布局敏感性问题;
3. 工程优化:通过Model Souping实现高效模型集成,降低部署成本。
此外,研究团队开源了训练代码与模型,为社区提供了可复现的基线,助力后续研究。