大型语言模型在城市任务中的能力评估:CityBench系统性评测平台
作者与机构
本研究的核心团队由*Tsinghua University*(清华大学)电子工程系的Jie Feng*、Jun Zhang*、Yong Li‡(通讯作者),*Beijing Jiaotong University*(北京交通大学)的Tianhui Liu*,以及*Shenzhen International Graduate School, Tsinghua University*(清华大学深圳国际研究生院)的Xin Zhang†等学者共同完成。研究成果以预印本形式发布于*arXiv*(编号:2406.13945v3),提交至*KDD Datasets and Benchmarks 2025*。
学术背景与研究动机
科学领域:研究聚焦于大型语言模型(LLMs)与视觉-语言模型(VLMs)在城市科学中的能力评测,属于人工智能与城市计算(Urban Computing)的交叉领域。
研究背景:随着LLMs在通用领域的突破,其是否具备解决城市复杂任务的能力亟待验证。现有研究多局限于单一任务或静态数据(如地理坐标问答),缺乏系统性评测平台,尤其忽略城市环境的动态性(如交通流变化)和多模态数据整合(如卫星图像与人类活动数据)。
研究目标:开发首个交互式仿真评测平台CityBench,涵盖8类城市任务,覆盖13个全球城市数据,全面评估LLMs/VLMs在感知理解与决策规划任务中的表现。
研究流程与方法
1. 数据与仿真模块构建
2. 评测基准设计(CityBench)
感知理解任务:
- 街景图像定位(Image Geolocalization):要求模型根据图像推断城市名称或经纬度(精度分1km/25km两档)。
- 地理空间预测(Geospatial Prediction):基于卫星图像预测人口密度(使用WorldPop数据作为基准)。
- 基础设施推理(Infrastructure Inference):识别卫星图像中的机场、港口等设施。
- 城市元素问答(GeoQA):测试模型对道路、地标等城市元素的空间关系理解。
决策规划任务:
- 移动预测(Mobility Prediction):预测用户下一时段的活动位置。
- 城市探索(Urban Exploration):无视觉输入的零样本路径规划。
- 户外视觉导航(Outdoor Navigation):结合语言指令与街景图像导航。
- 交通信号控制(Traffic Signal Control):动态调整信号灯缓解拥堵。
3. 实验与数据分析
- 模型选择:评测30个开源与商业模型(如GPT-4、LLaMA3、InternVL2),对比专业基线(如RemoteCLIP用于人口预测)。
- 质量管控:混合模板生成与LLM辅助生成问题,并通过人工校验确保数据多样性(如过滤低质量OSM数据)。
主要发现与结论
关键结果
优势领域:LLMs在需常识推理的任务中表现优异,例如:
- GeoQA准确率达39.8%(GPT-4 Turbo),优于小型模型(如Mistral-7B的22.9%)。
- 街景图像定位任务中,GPT-4o城市名称推断准确率高达86.2%。
瓶颈问题:
- 数值计算能力不足:在人口密度预测中,最佳VLM(GPT-4o)的RMSE(2.32)仍比专业模型RemoteCLIP(1.966)高18%。
- 地理偏见:模型在发展中国家城市(如内罗毕)的表现显著低于发达国家城市(如巴黎),与公开数据覆盖率正相关。
交互任务局限性:交通信号控制任务中,即使顶级LLMs(如InternVL2-40b)的队列长度(52.459)仍比传统算法MaxPressure(36.898)高41.9%。
科学价值
- 方法论贡献:CityBench首次实现多模态、动态交互、全球化的城市任务评测框架,填补领域空白。
- 应用指导:指出LLMs需结合领域专业知识(如交通工程)才能胜任高精度城市决策,为后续研究指明方向。
研究亮点
- 全栈创新:从数据整合(CityData)、仿真引擎(CitySimu)到评测基准(CityBench)均为自主开发,代码与数据已开源。
- 任务多样性:涵盖感知-决策全链条,尤其引入动态交互评测(如实时交通信号控制)。
- 地理覆盖广度:覆盖北京、孟买、开普敦等13个城市,揭示模型性能的跨区域差异。
局限与展望:当前数据质量依赖公开来源,未来需引入更多实地标注数据。研究呼吁开发城市领域专用大模型,以突破现有瓶颈。
注:专业术语首次出现时保留英文原词,如POI(兴趣点)、RMSE(均方根误差)。