基于多模态大模型的智慧城市治理研究学术报告
作者及机构
本研究的通讯作者为沈佳庆(Jiaqing Shen,单位:中国科学院大学杭州高等研究院)与胡超(Chao Hu,单位:中国联通(上海)产业互联网有限公司),研究成果发表于2024年第三届绿色建筑、土木工程与智慧城市国际会议(GBCESC 2024)的会议论文集,收录于《Advances in Engineering Research》系列第264卷。
学术背景
研究领域属于人工智能与城市治理的交叉学科,聚焦于多模态大模型(Multimodal Large-scale Models)在网格化社会治理中的创新应用。随着大数据时代城市治理数据的爆炸式增长,传统网格事件工单生成流程面临数据源单一、长尾事件(long-tail events)识别困难、人工录入效率低下等问题。研究团队基于主流多模态大模型(如VisualGLM、Qwen-VL),通过提示词(prompt)优化与场景数据集微调,探索提升事件识别准确率与工单生成效率的解决方案。
研究目标包括:
1. 验证多模态大模型在城市治理多模态数据分析与长尾事件发现中的能力;
2. 设计适配网格治理场景的工单生成流程,优化传统人工主导模式的效率瓶颈;
3. 通过实验量化评估模型性能,并提出前瞻性技术改进方向。
研究流程与方法
1. 模型选型与架构分析
- 选用VisualGLM-6B和Qwen-VL-7B作为基础模型,两者均采用视觉-语言对齐技术(如BLIP2),结合视觉Transformer(ViT)与预训练大语言模型(如ChatGLM、Qwen)。Qwen-VL通过添加目标框描述标注,在目标识别能力上优于VisualGLM。
工单生成方案设计
实验验证
定量评估
主要结果与结论
1. 模型性能差异:Qwen-VL展现出更强的多模态分析能力和长尾事件识别稳定性,而VisualGLM对提示词顺序敏感且易产生幻觉。
2. 提示词设计价值:选择式与检查式模板通过整合事件类别库,可将F1值提升约7%。
3. 微调有效性:添加上下文信息的标注数据结合LoRA方法,能以16GB GPU显存实现高效推理,为资源受限场景提供可行方案。
研究结论指出,多模态大模型可显著扩展网格治理的可发现事件类型,简化工单生成流程,但需进一步解决幻觉问题、推理加速与硬件部署等挑战。未来可通过跨模态数据融合与算力优化,推动该技术在智慧城市中的广泛应用。
研究亮点
1. 创新性方法:首次将多模态大模型嵌入网格工单生成流程,提出“提示词优化+场景微调”的技术路径。
2. 实用价值:设计的工单生成方案可直接对接现有城市管理平台,提升社会治理效率。
3. 开源模型适配:验证了Qwen-VL等国产大模型在城市治理任务中的优越性,为本土化应用提供案例支持。
前瞻方向
作者建议未来研究关注:多模态数据的实时处理能力、模型轻量化部署,以及跨部门数据壁垒的破除。