该研究的主要作者包括 Hsiao-Yu Tung、Mingyu Ding、Zhenfang Chen、Daniel M. Bear、Chuang Gan 等,分属 MIT、Stanford、UC Berkeley、MIT-IBM Watson AI Lab 和 UMass Amherst 等机构。此研究发表于第 37 届神经信息处理系统大会(NeurIPS 2023),并在线发布于 arXiv。
该研究涉及物理场景理解的研究领域,目标是探讨人工智能系统如何预测视觉物理世界中的动态变化。人类视觉系统能够通过观察物体运动推断其质量(mass)、摩擦力(friction)、弹性(elasticity)以及变形性(deformability)等机械属性,这种能力在动态物理场景中显得尤为重要。例如,通过看到箱子陷入沙发缓冲,推断出箱子较重。研究如何使人工智能系统具备这类能力具有重要意义。
尽管近年来物理预测模型取得显著进展,但现有的基准测试往往局限于可观察物理属性(如大小或颜色),并未针对需在线推断的潜在物理属性进行测试。为此,该研究提出了一个新的数据集和基准——Physion++,以评估人工系统在复杂物理场景中的表现,并通过与人类对比揭示当前系统的优缺点。
该研究的目的是: 1. 构建一个能够测试人工系统物理预测能力及物体潜在物理属性推断能力的基准数据集; 2. 评估代表性物理预测模型的表现; 3. 比较人工智能模型与人类在物理预测任务中的异同。
研究团队设计的 Physion++ 数据集基于四种常见的机械属性:质量、摩擦、弹性和变形性,涵盖九种场景,包括:
质量相关的三个场景:
弹性相关的两个场景:
摩擦相关的三个场景:
变形相关的场景:
所有场景数据均通过 TDW (ThreeDWorld Simulator) 模拟生成。每个视频分为三个阶段: 1. 推断阶段(Inference Phase):物体通过交互展现其机械属性; 2. 转换阶段(Transition Phase):场景在遮幕期间重新调整,避免表面视觉线索直接指向结果; 3. 预测阶段(Prediction Phase):两个标记物体是否会接触。
此外,为确保模型无法通过表面视觉线索简单推测结果,“paired trials” 设计使得任务对比试验视频的初始状态完全一致,而最终结果因潜物理属性差异而不同。
研究中对八种主流物理预测模型进行了详尽评估,分属于视频像素预测模型、基于视觉编码器的模型,以及三维粒子图模型等不同范畴。其中包括: - 2D 视频基于像素预测的 Masked Conditional Video Diffusion (MCVD); - 基于 ImageNet 预训练视觉编码器的 Multi-layer Perceptrons (MLPs); - 对象中心动态模拟模型 SlotFormer、ALOE; - 拥有物理属性直接访问权限的 3D 粒子图神经网络 (DPI-Net)。
此外,人类数据的采集通过在线实验平台完成,每个机械属性均由 50 位参与者完成共计 192 个试验。
数据分析分三个部分: 1. 各模型基于不同数据集子集的预测准确性对比; 2. 模型预测与人类结果的相关性分析; 3. 难度区分试验下“易题”(人类正确率高)和“难题”(人类正确率低)的模型表现。
研究预训练基于 2000 个随机生成样本集合完成。测试数据包含平衡场景,确保二分类任务中红色与黄色物体接触/不接触的试验数量相等。通过逐帧像素采样(或粒子生成的三维状态),模型完成未来事件的预测,输出接触的 Yes/No 归类。
本研究提出的 Physion++ 数据集通过新增的四种机械属性测试场景显著提升了对人工智能系统物理推断能力的挑战复杂性。结果揭示了当前模型在涉及潜在物理属性推断方面的明显不足,特别是在如何生成人类式物理预测方面,尚存极大改进空间。
在实际应用中,研究成果可为机器人操纵、自动驾驶、游戏开发等需要动态物理预测的领域提供重要参考,同时也为物理启发式深度学习模型的设计提供了明确的方向。
未来,研究者可通过扩增 Physion++ 数据集覆盖范围,探索物理推断领域长期路径预测模型的更高表现极限。进一步,将 TDW 仿真场景与现实物理评估相结合,也可扩展数据集场景的多样性及适用性。