分享自:

即时视觉语言行动模型:开放权重与开放数据

期刊:39th conference on neural information processing systems (NeurIPS 2025)

自动驾驶领域重大突破:Impromptu VLA数据集推动视觉-语言-动作模型性能提升

作者与发表信息
本研究的核心团队来自清华大学AIR实验室(*1)、博世研究院(†2)以及清华大学IIIS研究所(*3),由Haohan Chi*、Huan-Ang Gao*、Ziming Liu†等共同完成。论文发表于第39届NeurIPS会议(2025)的Datasets and Benchmarks专题,项目主页与代码已公开(http://impromptu-vla.c7w.tech/)。

学术背景与研究动机
当前自动驾驶系统在结构化道路(如城市道路和高速公路)表现优异,但在非结构化场景(如模糊道路边界、临时交通规则变化、非标准动态障碍物和恶劣路况)中面临严峻挑战。现有驾驶数据集(如nuScenes、Waymo)主要覆盖常规场景,缺乏针对非结构化场景的系统性标注数据。为此,研究团队提出Impromptu VLA数据集,旨在填补这一空白。该研究属于多模态人工智能与自动驾驶交叉领域,核心目标是通过构建大规模、细粒度标注的非结构化场景数据集,提升视觉-语言-动作(Vision-Language-Action, VLA)模型的泛化能力。

研究流程与方法
1. 数据收集与预处理
- 源数据:从8个公开数据集(Mapillary、nuScenes、Waymo等)中筛选超过200万条原始视频片段,最终精选8万条片段,总存储量达10TB。
- 统一化处理:所有片段对齐至2Hz帧率,保留过去1.5秒和未来5秒的时序信息,并提取关键帧(keyclip)作为标注单元。
- 稳定性过滤:通过15秒的“局部过滤包”(local-filter pack)验证场景特征的持续性,避免短暂异常干扰。

  1. 非结构化场景分类学构建

    • 开放描述生成:使用Qwen2.5-VL 72B模型对采样片段生成详细场景描述(如“工业区停车场无车道线”)。
    • 自动化分类:设计链式思维(Chain-of-Thought, CoT)提示模板,将场景归为四类:
      • 道路边界模糊(如乡村土路)
      • 临时交通规则变化(如施工区绕行标志)
      • 非标准动态障碍物(如动物穿行)
      • 恶劣路况(如冰雪覆盖路面)
    • 人工验证:对VLM分类结果进行人工校验,F1分数达0.81–0.91(除罕见类别外)。
  2. 多任务标注生成

    • 标注内容:涵盖7类任务,包括场景描述、交通信号检测、弱势道路使用者(VRU)识别、运动意图预测、元动作规划(meta-action planning)、规划解释和轨迹预测。
    • 技术实现:结合规则引擎与VLM生成,例如:
      • 轨迹预测:以过去1.5秒状态(位移、速度、加速度)和未来5秒真实轨迹作为训练目标。
      • 特殊标记:使用<planning>等标签区分相似输出结构,避免模型混淆。
  3. 实验验证

    • 闭环测试(NeuronCAP基准):
      • 使用Qwen2.5-VL 3B模型,先微调于Impromptu VLA,再微调于nuScenes。
      • 结果:平均NeuronCAP分数从1.77提升至2.15(满分5),碰撞率从72.5%降至65.5%。
    • 开环测试(nuScenes轨迹预测):
      • 3B模型平均L2误差从0.34米降至0.30米,接近专用模型EMMA+(0.29米)。
    • 诊断性评估
      • 在VQA任务中,动态物体预测准确率从0.20提升至0.92,验证了模型在感知-预测-规划链路的全面改进。

核心结果与逻辑链条
1. 数据质量验证:通过人工校验与VLM协同标注,确保非结构化场景标注的可靠性(如临时交通规则类别的F1=0.90)。
2. 模型性能提升:闭环测试中碰撞率下降表明模型对复杂场景的适应性增强;开环测试的L2误差降低证明轨迹预测精度提升。
3. 任务泛化性:VQA任务改进显示模型不仅学习特定场景特征,还能迁移至多模态推理任务。

研究结论与价值
- 科学价值:首次系统定义非结构化驾驶场景分类学,并提出可扩展的VLM中心化数据标注流程。
- 应用价值:Impromptu VLA数据集为自动驾驶模型在真实复杂环境中的测试与优化提供基准,尤其适用于长尾场景(corner cases)。
- 行业意义:公开数据集与代码推动社区协作,减少对私有数据的依赖。

研究亮点
1. 数据规模与质量:80k片段均聚焦非结构化场景,覆盖8大数据源,标注量远超同类工作。
2. 方法创新:融合VLM的CoT推理与人工校验,实现高效高精度标注。
3. 性能突破:仅用80k数据即达到与百万级私有数据训练模型(EMMA+)相近的轨迹预测精度。

局限性
标注依赖Qwen2.5-VL可能引入模型偏见,但人工校验与实验验证部分缓解了这一风险。未来可探索多VLM协同标注以进一步提升多样性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com