基于分层视图到令牌传输的零样本三维问答

分享自：
基于分层视图到令牌传输的零样本三维问答

工程学
信息科学
软件工程
人工智能
计算机科学
期刊:Proceedings of the 43rd International Conference on Machine Learning
【点击此处】阅读全文、收藏及针对性提问
基于分层视图到令牌传输的零样本三维问答：KeyVT框架学术研究报告
本文旨在向中文研究界介绍一篇近期发表在机器学习领域顶级会议上的学术论文。该论文由深圳大学计算机与软件工程学院的研究团队完成，通讯作者为黄辉教授。论文标题为《Zero-shot 3D Question Answering via Hierarchical View-to-Token Transportation》，已发表于2026年在韩国首尔举行的第43届国际机器学习会议（ICML）的会议论文集中。本研究属于计算机视觉、自然语言处理与三维场景理解交叉领域，具体聚焦于利用二维视觉-语言模型（Vision-Language Models, VLMs）解决零样本（Zero-shot）三维问答（3D-QA）任务。
一、 研究背景与动机
近年来，以GPT-4V、Qwen-VL为代表的大型视觉-语言模型（VLMs）在图像/视频问答、描述和推理等任务上展现出卓越的能力。受此启发，研究者开始探索将强大的二维VLMs扩展到三维物理世界理解中。一种主流范式是从三维点云中采样多个二维视图，然后将这些视图序列输入预训练的二维VLMs来回答关于三维场景的问题。这种方法避免了直接训练三维语言模型（3D-LLMs）所需的大规模、高质量的三维-文本配对数据，具有更好的可扩展性和实用性。
然而，这种基于视图的范式面临一个核心挑战：在有限的模型输入令牌（Token）预算下，如何选择最具信息量的输入内容？理想的输入应尽可能多地保留与任务相关的三维细节。早期研究采用均匀采样策略选择视图，但会引入大量噪声。后续工作提出了基于语义相似性的关键视图选择方法，但这类方法往往过度关注查询（问题）与视图的直接相关性，可能忽略查询未明确提及但至关重要的场景证据。更重要的是，即使选出了关键视图，由于输入令牌数限制，通常只能输入少量视图（如8或16个）。这些视图之间在语义和区域上往往存在大量冗余，直接输入所有视图令牌会浪费宝贵的输入容量。虽然视频理解领域已有令牌压缩技术，但基于聚类的方法对特征分布敏感，可能无法有效捕捉跨视图的多样化令牌。
因此，本研究的目标是提出一种新颖的框架，在预定义的输入令牌预算内，通过分层选择策略（先选关键视图，再选关键令牌），尽可能多地收集任务相关的三维场景信息，从而提升二维VLMs在零样本三维问答任务上的性能。
二、 研究方法与详细工作流程
本研究提出了一种名为KeyVT的分层框架，其核心思想是通过两个阶段优化输入上下文：首先进行几何感知的关键视图选择（Key-View Selection, KeyV），然后在选出的视图内进行基于最优传输理论的关键令牌选择（Key-Token Selection, KeyT）。整个流程无需针对下游任务进行微调（Tuning-free）。
1. 问题形式化 给定一个由一组二维视图 M = {v1, v2, ..., v|M|} 表示的三维场景，以及一个相关问题 q。每个视图 vi 都带有相机参数（位置和方向）。由于计算和内存限制，VLM的输入令牌预算 S 远小于所有视图的总令牌数 |M| * t（t为每视图令牌数）。目标是找到一个满足输入预算约束 S 的最优输入上下文 I，使其保留足够多的任务相关证据以回答问题。即：a = VLM(I, q)，其中 I = f(M, q, S)，f 是选择函数。
2. 关键视图选择（KeyV）：几何感知的视图选择 KeyV模块旨在选择不仅与问题语义相关，而且能提供连贯空间上下文（即周围环境）的视图。其流程如下： * 计算视图距离：首先，定义第一个视图 v0 与第 i 个视图 vi 之间的相对距离 d(v0, vi)。该距离结合了相机位置差（||c0 - ci||）和相机朝向的角距离（θ(r0, ri)），用以建模从起始视图到当前视图的空间轨迹。 * 分割三维场景为空间一致的子场景：使用一个预定义的窗口大小 δ 对计算出的视图距离序列进行滑动窗口分割，将整个视图序列划分为多个子场景 {L1, L2, ..., L|L|}。每个子场景内的视图在空间上相邻，捕捉了三维场景中特定区域的细节。 * 评估子场景重要性：并非所有子场景都与问题同等相关。使用预训练的多模态编码器（如BLIP-2）计算问题 q 与每个子场景 Ll 内所有视图的语义相似度得分 Ol。子场景的最终相关性得分 Rl 由该子场景内视图相似度得分的最大值和平均值组合而成（Rl = max(Ol) + mean(Ol)）。这种设计能识别出整体相关性高或包含特别显著（高相似度）视图的子场景。 * 自适应分配关键视图：根据每个子场景的相关性得分 Rl 及其包含的视图数量 |Ll|，计算其权重 Wl = Rl * sqrt(|Ll|)。平方根用于防止过大的子场景占据过多权重。然后，根据权重比例将总的关键视图数 K 分配给各个子场景，得到每个子场景应选出的视图数 nl。 * 子场景内视图选择：在每个子场景 Ll 内部，根据视图-问题语义相似度得分 Ol，选择 top-nl 个视图作为该子场景的关键视图。 * 汇总关键视图：将所有子场景选出的关键视图按时间（或空间）顺序拼接，得到最终的关键视图集合 M*。
3. 关键令牌选择（KeyT）：基于最优传输的令牌压缩 KeyT模块的目标是进一步压缩关键视图集合 M* 中的令牌冗余。将 M* 中所有视图的令牌嵌入集合记为 P = {e1, e2, ..., en}。目标是构建一个更小的虚拟令牌集合 Q = {c1, c2, ..., cm} （m < n），使其在特征空间中尽可能覆盖原始令牌集 P 的语义信息。 * 构建最优传输问题：将 P 和 Q 视为嵌入空间中的两个离散分布。目标是找到最优的虚拟令牌集 Q，以最小化从 P 到 Q 的最优传输（Optimal Transport, OT）距离。传输成本矩阵 C 定义为令牌嵌入之间的余弦距离。 * 优化虚拟令牌：为了高效求解，采用熵正则化的Sinkhorn距离。通过梯度下降方法（如Adam优化器）迭代更新虚拟令牌 Q 的嵌入，以最小化其与原始令牌集 P 之间的OT距离。这个过程是无监督的，仅需少量迭代（10-15次）。 * 将虚拟令牌映射回真实图像块：学习到的虚拟令牌 Q 是嵌入空间中的抽象表示，不能直接输入VLM。因此，需要将每个虚拟令牌 cm “落地”到真实的图像块令牌上。具体方法是：根据最优传输计划矩阵 T，对每个虚拟令牌 cm，选择与其传输概率最高的前 s/m 个原始视图令牌作为其代表。最终，将所有选出的真实令牌拼接，形成压缩后的输入上下文 I，其令牌总数满足预算 S。
三、 实验结果与发现
研究在三个广泛使用的三维问答基准数据集上评估了KeyVT框架：ScanQA、SQA3D和VSI-Bench。基线模型包括：1) 基于3D或2D+3D输入的3D-LLMs；2) 需要训练的方法（如CDViews, Video-3D LLM）；3) 关键帧选择方法（如AKS）；4) 令牌压缩方法（如DivPrune, FLoC）。评估使用了多种VLM骨干网络（LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL）。
主要结果如下： 1. 显著优于零样本基线：在几乎所有评估指标和VLM骨干上，KeyVT均显著优于其他无需调优的方法（如AKS, DivPrune, FLoC）。例如，在ScanQA数据集上，使用LLaVA-Video-7B骨干时，KeyVT在CIDEr指标上达到100.7，优于AKS的99.0、FLoC的99.4和DivPrune的99.1。在SQA3D的精确匹配（EM@1）指标上，KeyVT也取得了最佳或接近最佳的性能。 2. 媲美甚至超越需训练的方法：KeyVT的性能与需要额外训练的方法（如CDViews, Video-3D LLM）相当，甚至在部分设置下（如相同输入帧数时）表现更优。这证明了通过精心设计的输入上下文选择，无需微调即可充分挖掘现有二维VLMs的三维理解潜力。 3. 在VSI-Bench上展现强泛化性：VSI-Bench包含更复杂的细粒度空间推理任务。KeyVT在该数据集上的平均性能优于所有对比的零样本方法，并且在多个子任务（如物体计数、绝对距离估计）上表现突出，显示了其方法的鲁棒性和泛化能力。 4. 消融实验验证各组件有效性： * KeyV vs. AKS：KeyV在三个数据集上均一致优于AKS，证明了结合几何信息进行空间一致性子场景分割和自适应视图分配的有效性。 * KeyT vs. 其他压缩方法：在不同压缩率（75%， 50%， 25%）下，KeyT均优于DivPrune和FLoC，表明OT框架能更好地选择多样化和有代表性的令牌。 * 组件消融：移除KeyV中的几何感知设计、子场景分割或相关性评分任一组件，都会导致性能明显下降，其中几何感知设计的贡献最大。 * 鲁棒性测试：即使对相机参数注入高达5%的噪声，或使用估计的相机参数（而非真实参数），KeyVT仍能保持稳健性能。 5. 可视化分析：定性结果显示，KeyV选择的关键视图在三维场景中形成了空间连贯且与任务相关的子场景（如包含“水槽”或“架子”的区域）。KeyT选择的令牌能够覆盖原始视图令牌在嵌入空间中的分布，并且从关键令牌反投影得到的点云保留了关键视图的主要几何和语义结构，同时去除了冗余区域。 6. 复杂度分析：KeyV的推理时间与AKS相当，KeyT的推理时间介于DivPrune和FLoC之间，整体在计算效率和性能之间取得了良好平衡。
四、 研究结论与价值
本研究提出了KeyVT，一个用于增强视觉-语言模型在三维理解任务中输入上下文质量的分层框架。通过几何感知的关键视图选择策略，联合利用视觉特征和相机参数来识别空间连贯且任务相关的视图。在此基础上，基于最优传输的令牌压缩模块选择多样化和有代表性的令牌，有效释放了输入预算，使得VLMs能够访问更丰富的三维证据。重要的是，KeyVT是数据无关且无需调优的，仅需少量无监督学习迭代来优化虚拟令牌。
科学价值与应用价值： * 科学价值：1) 提出了一种新颖的、结合几何信息与语义信息的层次化输入选择框架，为利用二维VLMs解决三维空间理解问题提供了新的思路。2) 创新地将最优传输理论应用于跨视图令牌压缩，提供了一种原则性的方法来衡量和保留代表性信息。3) 通过系统的实验，证明了在零样本设置下，通过优化输入上下文可以显著提升现有VLMs的三维推理能力，其效果可媲美需要训练的方法。 * 应用价值：1) 降低部署门槛：KeyVT无需针对特定三维数据集进行模型微调，显著降低了将先进AI系统应用于三维场景（如机器人、具身智能、增强现实、室内导航）的计算和数据需求。2) 提升效率与可及性：该框架促进了更资源高效和易于获取的三维感知能力，使资源有限的研究者和实践者也能利用强大的预训练模型泛化到未见过的三维环境。3) 推动相关领域：这项工作有望推动机器人学、增强现实、辅助技术等领域中基于视觉的智能体对复杂物理环境的理解。
五、 研究亮点
分层优化框架：首创了“先关键视图，后关键令牌”的两阶段分层优化范式，系统性地解决了从三维场景到VLM输入的上下文构建问题。
几何与语义融合：在关键视图选择中，创新性地引入了相机参数来建模空间关系，实现了基于几何一致性的子场景分割和自适应视图分配，超越了仅依赖语义相似度的传统方法。
基于最优传输的令牌压缩：将令牌选择问题形式化为最优传输问题，通过最小化虚拟令牌集与原始视图令牌集之间的OT距离，来学习具有代表性和多样性的关键令牌，避免了聚类方法的局限性。
强大的零样本性能：在多个基准测试中，KeyVT作为无需调优的方法，取得了与训练方法相媲美的性能，展示了仅通过改进输入策略即可极大释放现有二维VLMs三维潜力的可能性。
通用性与鲁棒性：框架与具体的VLM骨干网络无关，在LLaVA、Qwen等多种VLM上均能有效工作，并且对相机参数噪声具有一定的鲁棒性。
六、 其他有价值的内容
论文还详细讨论了与相关工作的区别，特别是与视频理解中关键帧选择和令牌压缩方法的对比，强调了三维场景理解在技术和应用上的独特性（如对空间一致性的更高要求）。此外，作者提供了完整的算法伪代码、超参数分析（如窗口大小δ、学习率、迭代次数的影响）以及丰富的可视化结果，增强了研究的可复现性和可理解性。在影响声明中，作者也审慎地指出了该工作的潜在风险有限，并鼓励未来研究在真实世界部署时探索其鲁棒性和公平性考量。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问