类型a
URBench:多视角城市场景下大型多模态模型评估的综合基准
一、主要作者及机构
该研究由来自*Shanghai AI Laboratory*、*Sun Yat-sen University*、*SenseTime Research*和*Wuhan University*的团队完成,主要作者包括Baichuan Zhou、Haote Yang、Dairong Chen、Junyan Ye、Tianyi Bai、Jinhua Yu、Songyang Zhang、Dahua Lin等,通讯作者为Conghui He和Weijia Li。研究以预印本形式发布于arXiv平台(版本:arXiv:2408.17267v3),尚未正式见刊。
二、学术背景
研究领域:该研究属于多模态人工智能领域,聚焦于大型多模态模型(Large Multimodal Models, LMMs)在城市环境中的评估与改进。
研究动机:尽管LMMs在通用场景(如自然图像理解)中表现优异,但其在城市环境中的能力尚未被充分探索。现有城市基准(如CityBench、EarthVQA)仅关注单一视角(如卫星或街景)或粗粒度区域级任务,缺乏对多视角关联性和细粒度角色级任务(如地理定位、场景推理)的系统评估。
研究目标:开发一个涵盖多视角、多任务维度的综合基准URBench,评估LMMs在城市复杂场景下的能力,揭示其局限性并指导未来模型优化。
三、研究流程与方法
1. 数据收集
- 数据来源:
- 自建数据:从Google Street View和Google Earth采集2,604组街景和4,239组卫星图像(2019-2023年),其中1,965组完成跨视角配对。
- 开放数据集:整合Cityscapes、Mapillary Traffic Sign Dataset、VIGOR等现有数据集