本文的研究题为“PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding”,作者包括 Wei Chow、Jiageng Mao、Boyi Li、Daniel Seita、Vitor Guizilini 和 Yue Wang,他们分别隶属于美国南加州大学(University of Southern California)、加州大学伯克利分校(UC Berkeley)和丰田研究院(Toyota Research Institute)。该研究以会议论文形式发表于 ICLR 2025。
该研究涉及人工智能领域中的视觉-语言模型(Vision-Language Models, VLMS)在物理世界理解中的能力。近年来,视觉-语言模型在推理与任务规划方面取得了显著进展,广泛应用于具有物理交互需求的体感人工智能(Embodied AI)中。然而,现有模型在理解物理现象方面表现不足。这种缺陷可能导致体感智能体在真实世界操作中出现问题,例如错误抓取易碎物体或者无法识别抓取属性。
理解物理世界的挑战主要包括物体属性(如质量、刚度等)、物体间关系、场景理解以及基于物理动态的预测能力。而人类具有直观物理(Intuitive Physics)能力,这是体感人工智能需要实现的关键目标,能够支持智能体更安全高效地执行复杂任务。
为解决这一问题,作者提出了PhysBench,这是一个用于评估视觉-语言模型物理理解能力的全面基准。此外,研究中还提出了一种名为PhysAgent的新框架,旨在通过结合视觉基础模型和物理知识记忆库,显著提升视觉-语言模型在不同物理任务中的表现。
数据的收集与标注
作者开发了PhysBench数据集,其中的10,002条目包含视频、图片和文本交互的混合数据,涵盖四大任务领域:物体属性、物体关系、场景理解和基于物理动态的推理。数据来源包括真实世界捕获、仿真和互联网搜索。为了维持数据质量,所有注释均由理工科研究生完成,经过多轮验证,确保问题与物理世界高度相关,并排除常识性问题。
数据分类与任务分布
数据被细分为19种子类别和8种能力类型,例如质量关系、弹性测试、光源变化、流体行为等。此外,作者为部分任务使用了多样的方式呈现实验数据,例如通过视频展示时间序列动态,或通过多张图片叠加表达物体的物理属性。
作者选取了75个具有代表性的视觉-语言模型,根据三种配置进行了广泛实验:仅支持单张图片输入的模型(如 LLaVA-1.5)、支持视频理解的模型(如 Chat-UniVi)以及支持多模态交互的通用模型(如 GPT-4O)。所有实验在PhysBench的测试集和验证集上完成,并通过随机选择问题剖析模型错误类型,分析性能差距的原因。
PhysAgent框架旨在弥补模型的感知和知识缺陷,主要包含以下三个步骤: 1. 任务特定激活(Task-Specific Prompt Activation)
根据问题从物理知识库中检索相关领域的物理原则,例如光源变化与阴影方向的关系。
视觉基础模型集成(Integration of Vision Foundation Models)
引入基础模型(如 Depth Anything、SAM 和 GroundingDino)提升视觉感知能力,例如精准估计深度信息、获取对象的空间位置并支持模型推理。
链式推理(Chain-of-thought Reasoning)
将视觉基础模型的输出整合到多步骤推理链中,并进行自我验证确保逻辑一致性。
作者分别采用零样本推断(Zero-Shot Inference)与微调(Fine-Tuning)方法对PhysAgent性能进行验证。此外,为探索物理理解能力是否能帮助下游应用,研究进行了一系列机器人操作实验,测试视觉-语言模型在抓取物体、识别工具与操作流程上的能力提升。
实验发现,现有的大部分视觉-语言模型在PhysBench上的平均准确率为40%左右,显著低于人类水平(95%以上)。即便是最佳模型GPT-4O,其表现仅为49.49%。在评估任务中,模型在物理场景理解和基于物理动态的预测任务中表现尤为不足,表明物理世界知识的缺乏是模型性能不佳的重要原因。
此外,研究还发现: 1. 数据规模与模型大小的影响有限
模型尺寸和训练数据的增加对物理任务的表现提升不明显,例如,Vila-1.5从3B参数扩展至7B参数后,在PhysBench的表现反而下降3.8%。这可能是因为追加的数据集多为描述性内容,而非物理知识的增强。
PhysAgent在物理理解任务上表现出显著优势。例如: - 为GPT-4O提供了18.4%的准确率提升,尤其在物理场景的推理能力上改善显著(49.5%)。 - 零样本情况下,物理数据集的知识记忆模块与视觉增强感知算法的有机结合,使PhysAgent在不同子任务上表现均稳定增长。
通过对机器人操作任务的评估证明,增强物理世界理解能力有助于实际应用中智能体表现的改进。例如,在抓取任务中,PhysAgent显著降低了推理和操作错误,将成功率提升至80%以上。这表明PhysBench不仅作为模型评估工具,还可为机器人领域提供高质量的示范数据与能力保障框架。
科学价值
该研究提出了首个面向物理世界理解的综合性基准数据集PhysBench,将视觉-语言模型的研究从传统的视觉问题与常识推理扩展至物理世界的感知与理解。通过详尽实验识别性能局限与改进方向,深化了学界对物理直觉建模的认识。
应用价值
提出的PhysAgent框架不仅显著提升了多模态模型的物理推理能力,还展示了其在机器人操作中的实际应用潜力,有助于加速体感智能体在医疗、物流、服务机器人等领域的应用落地。
研究指出提升视觉-语言模型物理世界理解能力的关键在于结合感知改进与知识注入。未来可进一步优化数据集构建方式,特别是在时间维度序列上的利用。此外,还可探索PhysAgent在开放性任务和更高复杂性问题中的表现,为实现人类水平的体感智能奠定基础。