分享自:

评估大型语言模型在城市任务中的能力:CityBench

期刊:KDD Datasets and Benchmarks

大型语言模型在城市任务中的能力评估:CityBench系统性评测平台

作者与机构
本研究的核心团队由*Tsinghua University*(清华大学)电子工程系的Jie Feng*、Jun Zhang*、Yong Li‡(通讯作者),*Beijing Jiaotong University*(北京交通大学)的Tianhui Liu*,以及*Shenzhen International Graduate School, Tsinghua University*(清华大学深圳国际研究生院)的Xin Zhang†等学者共同完成。研究成果以预印本形式发布于*arXiv*(编号:2406.13945v3),提交至*KDD Datasets and Benchmarks 2025*。


学术背景与研究动机

科学领域:研究聚焦于大型语言模型(LLMs)与视觉-语言模型(VLMs)在城市科学中的能力评测,属于人工智能与城市计算(Urban Computing)的交叉领域。
研究背景:随着LLMs在通用领域的突破,其是否具备解决城市复杂任务的能力亟待验证。现有研究多局限于单一任务或静态数据(如地理坐标问答),缺乏系统性评测平台,尤其忽略城市环境的动态性(如交通流变化)和多模态数据整合(如卫星图像与人类活动数据)。
研究目标:开发首个交互式仿真评测平台CityBench,涵盖8类城市任务,覆盖13个全球城市数据,全面评估LLMs/VLMs在感知理解决策规划任务中的表现。


研究流程与方法

1. 数据与仿真模块构建

  • CityData:整合多源城市数据,包括:

    • 地理空间数据(Geospatial Data):基于OpenStreetMap重建道路拓扑、POI(兴趣点)与AOI(兴趣区域)关联。
    • 视觉数据:通过Google Maps API和ArcGIS获取街景与卫星图像。
    • 人类活动数据:融合Foursquare签到数据和合成OD(起讫点)数据模拟人群移动。
    • 创新工具:开发开源工具链(如mosstool)修复原始地图数据中的拓扑缺失问题。
  • CitySimu:动态仿真引擎,包含三大模拟接口:

    • 个体移动模拟:基于地理数据生成智能体探索路径(如选择下一个POI)。
    • 交通微观仿真:采用智能驾驶模型(IDM)和随机车道变换模型模拟车辆交互,支持实时信号控制。
    • 视觉环境模拟:结合街景图像实现沉浸式导航任务(如语言指令导航)。

2. 评测基准设计(CityBench)

  • 感知理解任务

    • 街景图像定位(Image Geolocalization):要求模型根据图像推断城市名称或经纬度(精度分1km/25km两档)。
    • 地理空间预测(Geospatial Prediction):基于卫星图像预测人口密度(使用WorldPop数据作为基准)。
    • 基础设施推理(Infrastructure Inference):识别卫星图像中的机场、港口等设施。
    • 城市元素问答(GeoQA):测试模型对道路、地标等城市元素的空间关系理解。
  • 决策规划任务

    • 移动预测(Mobility Prediction):预测用户下一时段的活动位置。
    • 城市探索(Urban Exploration):无视觉输入的零样本路径规划。
    • 户外视觉导航(Outdoor Navigation):结合语言指令与街景图像导航。
    • 交通信号控制(Traffic Signal Control):动态调整信号灯缓解拥堵。

3. 实验与数据分析

  • 模型选择:评测30个开源与商业模型(如GPT-4、LLaMA3、InternVL2),对比专业基线(如RemoteCLIP用于人口预测)。
  • 质量管控:混合模板生成与LLM辅助生成问题,并通过人工校验确保数据多样性(如过滤低质量OSM数据)。

主要发现与结论

关键结果

  1. 优势领域:LLMs在需常识推理的任务中表现优异,例如:

    • GeoQA准确率达39.8%(GPT-4 Turbo),优于小型模型(如Mistral-7B的22.9%)。
    • 街景图像定位任务中,GPT-4o城市名称推断准确率高达86.2%。
  2. 瓶颈问题

    • 数值计算能力不足:在人口密度预测中,最佳VLM(GPT-4o)的RMSE(2.32)仍比专业模型RemoteCLIP(1.966)高18%。
    • 地理偏见:模型在发展中国家城市(如内罗毕)的表现显著低于发达国家城市(如巴黎),与公开数据覆盖率正相关。
  3. 交互任务局限性:交通信号控制任务中,即使顶级LLMs(如InternVL2-40b)的队列长度(52.459)仍比传统算法MaxPressure(36.898)高41.9%。

科学价值

  • 方法论贡献:CityBench首次实现多模态、动态交互、全球化的城市任务评测框架,填补领域空白。
  • 应用指导:指出LLMs需结合领域专业知识(如交通工程)才能胜任高精度城市决策,为后续研究指明方向。

研究亮点

  1. 全栈创新:从数据整合(CityData)、仿真引擎(CitySimu)到评测基准(CityBench)均为自主开发,代码与数据已开源。
  2. 任务多样性:涵盖感知-决策全链条,尤其引入动态交互评测(如实时交通信号控制)。
  3. 地理覆盖广度:覆盖北京、孟买、开普敦等13个城市,揭示模型性能的跨区域差异。

局限与展望:当前数据质量依赖公开来源,未来需引入更多实地标注数据。研究呼吁开发城市领域专用大模型,以突破现有瓶颈。


注:专业术语首次出现时保留英文原词,如POI(兴趣点)、RMSE(均方根误差)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com