基于注意力循环的无框多查询场景文本检索

分享自：
基于注意力循环的无框多查询场景文本检索

期刊:39th conference on neural information processing systems (NeurIPS 2025)
这篇文档由华中科技大学（Huazhong University of Science and Technology）的 Yin Liang, Xie Xudong, Li Zhang, Bai Xiang 和 Liu Yuliang（通讯作者）共同完成。该研究论文已被第39届神经信息处理系统大会（39th Conference on Neural Information Processing Systems, NeurIPS 2025）接收，并于2025年12月22日在arXiv预印本平台发布了第二版本（版本号：arXiv:2506.10609v2）。
该研究的核心学术领域是计算机视觉与自然语言处理的交叉领域，具体聚焦于场景文字检索任务。在过往的研究中，高效准确的场景文字检索通常严重依赖于人工标注的边界框来训练模型以精确定位图像中的文本区域。这种方法的成本高昂，且不同的检索任务（如单词、短语检索）可能需要不同粒度的框标注。更重要的是，现有的方法大多针对单一类型的查询（例如仅支持单词或短语查询）进行定制化设计，难以在一个统一模型中灵活应对多样化的真实世界检索需求，例如结合多个不连续关键词的“组合查询”或理解图像整体语义与文字关系的“语义查询”。为了解决这些问题，研究团队提出了名为MSTAR的新方法。该研究的主要目标是：1) 开发一种无需边界框标注的“无框”场景文字检索模型，以降低标注成本；2) 建立一个能够统一处理多种类型查询（单词、短语、组合、语义）的“多查询”检索框架，满足更广泛的现实应用需求。
研究的核心方法是名为“MSTAR: Box-Free Multi-Query Scene Text Retrieval with Attention Recycling”的新型框架。其详细工作流程包含几个关键创新模块，并通过一套完整的实验流程进行验证和评估。
首先，在模型架构与工作流程方面，MSTAR主要由以下四个核心部分组成： 1. 视觉编码器：基于预训练的SigLIP-ViT模型，负责从输入图像中提取初始视觉特征。 2. 渐进式视觉嵌入模块：这是为了解决预训练视觉语言模型倾向于关注图像中显著区域而忽略细节文字的问题而设计的。其工作流程是一个循环迭代的过程： * 初始嵌入：视觉编码器提取图像特征 F0。 * 注意回收：将 F0 与一组可学习的查询令牌一起输入到多模态编码器（基于BLIP-2）中，生成初始视觉嵌入 E0。同时，计算多模态编码器内部的交叉注意力图 C0，该图反映了模型当前关注了图像的哪些区域。 * 注意力转移：设计了一个显著注意力转移模块，该模块使用一个名为 σ 的算法对交叉注意力图进行二值化处理。σ 算法包含阈值化、分水岭算法和连通分量分析等步骤，最终生成一个二进制掩码 M0。M0 中值为0的位置对应上一轮被高度关注的显著特征，值为1的位置对应被忽略的区域。 * 特征精炼：将掩码 M0 应用于图像特征 F0，通过一个多头自注意力层 S 进行特征精炼，得到新的图像特征 F1 = S(F0, mask=M0)。这一过程旨在降低显著特征的权重，迫使模型将注意力转移到之前被忽略的非显著区域（如细小的文本）。 * 循环与聚合：重复上述过程 T 步（研究中主要使用 T=1），每一步都生成一个新的视觉嵌入 Et。最终，将所有步骤产生的视觉嵌入进行拼接，得到包含多粒度文本信息的综合视觉嵌入 Ev。这个过程实现了“注意力回收”，即逐步挖掘图像中不同显著程度的文本区域。 3. 指令感知文本表示模块：为了在一个模型中统一处理四种不同风格（风格）的查询（单词、短语、组合、语义），研究引入了“风格感知指令”。具体做法是，在将文本查询输入多模态编码器之前，在查询文本前拼接一个简短的、指明其类型的指令提示词（如“单词查询：”， “短语查询：”等）。这使得多模态编码器能够根据指令提示，将不同风格的查询编码到更适合其类型的语义表示空间中，从而避免了不同类型查询在语义上的混淆。 4. 多实例匹配模块：由于视觉嵌入 Ev 包含多个实例（来自循环步骤和多个查询令牌），文本嵌入 Et 也包含多个（一个图像可能对应多个查询），如何有效地建立跨模态对齐是一个挑战。MSTAR设计了两个并行分支来处理： * 单词分支：对于单词语义（对应单词和组合查询中的单个词），使用匈牙利匹配算法来显式地建立 Ev 中视觉嵌入与 Et 中单词语义之间的“一对一”最优匹配关系。 * 多词分支：对于短语或语义查询这类包含丰富语义的多词查询，使用一个轻量级的交叉注意力层，以文本查询为条件聚合视觉特征，获得与查询整体语义对应的视觉表示。 这种双分支设计使得模型能够灵活地适应不同类型的对齐需求。
模型的训练采用多阶段渐进式策略，图像分辨率从512、640逐步增加到800。训练损失函数结合了对比学习损失和图文匹配损失。在推理时，首先利用余弦相似度对图像进行初步排名，然后对排名靠前的图像（如前2%）使用再排序策略，即将图像和查询再次共同输入多模态编码器进行一对一的精细匹配，以进一步提升精度。
其次，在评估基准的构建方面，为了全面评估多查询检索能力，研究团队构建了一个名为多查询文本检索数据集的新基准。该基准的构建流程如下： * 数据来源：综合利用了多个公开数据集（如COCO-Text， Total-Text等）并结合网络图像搜索。 * 子集划分：包含四个子集，每个子集针对一种查询类型：1) 单词检索：包含5000张图像和200个最常见单词查询。2) 短语检索：包含5000张图像和200个最常见短语查询。3) 组合检索：包含5000张图像和200个最常见的不连续关键词组合查询。4) 语义检索：包含1000张图像和25个手动收集的、需要理解图像整体场景和文字关系的描述性查询。 * 难点设计：特别是为语义检索子集精心设计了“困难负样本”，这些负样本包含与查询语义相似的视觉元素、字形相似的文本或含义相似的文本，极大地增加了区分难度。 MQTR基准总共包含16,000张图像和625个独特查询，是第一个全面支持四种查询类型评估的场景文字检索基准。
研究的核心结果 体现在对MQTR基准和七个公开数据集的广泛实验上，这些结果有力地支撑了MSTAR方法的有效性和优越性。
在多查询检索能力方面，如表2所示，MSTAR在MQTR数据集上取得了全面的领先。其平均均值平均精度值远超基于边界框的先进方法（如TG-Bridge）和无框的预训练视觉语言模型（如BLIP-2）。具体而言： * 对于需要细粒度感知的“单词”和“组合”查询，MSTAR超越了依赖精确框定位的模型，证明了其无框方法在捕捉细节文本方面的强大能力。 * 对于需要语言语义理解的“短语”和“语义”查询，MSTAR显著优于未经专门训练的通用视觉语言模型（如SigLIP），证明了风格感知指令和多实例匹配模块在统一多类型语义对齐上的有效性。 * 在整体性能上，MSTAR比之前的最好模型平均高出8.5%的平均精度。这清晰地表明，无论是基于框的方法还是通用的跨模态检索模型，都难以有效应对多查询这一复杂任务，而MSTAR为此提供了一个强大的基准解决方案。
在传统单词级检索任务上，如表4和表5所示，MSTAR在六个公开数据集上也展现了极具竞争力的性能： * 相比同样无需框标注的BLIP-2，MSTAR在多个数据集上均有大幅提升，尤其在包含小文本的CTR数据集上提升了超过14个百分点。 * 与最先进的、需要全监督边界框标注的文本检测/识别方法（如TG-Bridge， DeepSolo）相比，MSTAR在平均精度上达到了相当甚至更好的水平，同时推理速度更快（14.2 FPS vs. TG-Bridge的6.7 FPS），这得益于其省略了耗时的文本检测模块。 * 一个突出的亮点是，在Total-Text数据集上，MSTAR甚至超越了需要昂贵框标注的先进检索方法FDP，取得了6.4%的平均精度优势。这直接证明了无框方法在性能上可以媲美甚至超越有框方法，同时彻底免除了框标注成本。
消融实验（表6，7，8）进一步验证了各个核心组件的必要性： * 移除渐进式视觉嵌入模块后，模型在包含小文本的CTR和IC15数据集上性能大幅下降，证实了该模块对于捕捉非显著细粒度文本至关重要。 * 移除多实例匹配模块或风格感知指令也会导致性能明显降低，证明了它们对于实现精准的跨模态对齐和统一多类型查询编码的重要性。 * 对 σ 二值化算法的分析表明，结合分水岭算法的版本能获得最佳性能，避免了手动调整阈值的繁琐。 * 对循环步骤 T 的分析表明，增加循环次数能持续提升性能，但为了平衡效率与效果，研究选择 T=1。
此外，研究还展示了MSTAR的可解释性应用（图3）。通过梯度类激活图技术，MSTAR能够准确定位图像中不同类型的查询文本，包括弯曲、密集的文字实例，这进一步验证了其在不依赖框监督的情况下，仍能学习到准确的文本位置感知能力。研究也讨论了局限性，即在处理极端细小和密集的文本时，性能仍略逊于有精确位置监督的方法，这是无框方法的普遍挑战。
该研究的结论是，它成功提出并验证了第一个用于场景文字检索的无框、多查询统一框架MSTAR。该方法通过渐进式视觉嵌入实现细粒度文本感知，通过指令感知和多实例匹配实现多样化查询的统一对齐。它不仅取得了与最先进有框方法相媲美的检索性能，同时显著降低了标注成本，并首次系统性地解决了多查询场景文字检索的难题。
该研究的科学价值和应用价值在于：1) 方法论创新：为视觉-语言模型在细粒度感知任务上的应用提供了一种新颖的“注意力回收”机制。2) 任务定义与基准建设：首次明确了“多查询场景文字检索”这一更具现实意义的任务，并构建了首个综合评估基准MQTR，为未来研究提供了方向和标准。3) 实用价值：展示了无需昂贵框标注即可实现高性能检索的可能性，为构建更高效、更通用的视觉文档理解基础模型铺平了道路，有望应用于图像搜索引擎、文档索引、视觉问答等多个领域。
本研究的亮点可以总结为：1) 首创性：首个专注于无框、多查询场景文字检索的系统性工作。2) 高性能：在消除框标注成本的同时，在多个数据集上达到或超越了全监督方法的性能。3) 创新模块：提出的渐进式视觉嵌入、指令感知文本表示和多实例匹配模块，有效解决了预训练模型忽视细节、多类型查询语义混淆、多实例对齐困难等关键问题。4) 高质量基准：构建的MQTR数据集填补了该领域综合性评估基准的空白。研究团队已公开代码和数据集，推动了该领域的开放研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问