基于多模态大规模模型的智慧城市治理

分享自：

基于多模态大规模模型的智慧城市治理

期刊:proceedings of the 3rd International Conference on Green Building, Civil Engineering and Smart City (GBCESC 2024)DOI:10.2991/978-94-6463-728-1_83

【点击此处】阅读全文、收藏及针对性提问

基于多模态大模型的智慧城市治理研究学术报告
作者及机构
 本研究的通讯作者为沈佳庆（Jiaqing Shen，单位：中国科学院大学杭州高等研究院）与胡超（Chao Hu，单位：中国联通（上海）产业互联网有限公司），研究成果发表于2024年第三届绿色建筑、土木工程与智慧城市国际会议（GBCESC 2024）的会议论文集，收录于《Advances in Engineering Research》系列第264卷。
学术背景
 研究领域属于人工智能与城市治理的交叉学科，聚焦于多模态大模型（Multimodal Large-scale Models）在网格化社会治理中的创新应用。随着大数据时代城市治理数据的爆炸式增长，传统网格事件工单生成流程面临数据源单一、长尾事件（long-tail events）识别困难、人工录入效率低下等问题。研究团队基于主流多模态大模型（如VisualGLM、Qwen-VL），通过提示词（prompt）优化与场景数据集微调，探索提升事件识别准确率与工单生成效率的解决方案。
研究目标包括：
 1. 验证多模态大模型在城市治理多模态数据分析与长尾事件发现中的能力；
 2. 设计适配网格治理场景的工单生成流程，优化传统人工主导模式的效率瓶颈；
 3. 通过实验量化评估模型性能，并提出前瞻性技术改进方向。
研究流程与方法
 1. 模型选型与架构分析
 - 选用VisualGLM-6B和Qwen-VL-7B作为基础模型，两者均采用视觉-语言对齐技术（如BLIP2），结合视觉Transformer（ViT）与预训练大语言模型（如ChatGLM、Qwen）。Qwen-VL通过添加目标框描述标注，在目标识别能力上优于VisualGLM。
工单生成方案设计
针对三类工单生成场景（监控系统触发、网格员上报、群众举报），设计差异化提示模板：
 开放式模板（Open）：依赖模型自主推理生成工单；
 
选择式模板（Selection）：限定事件类型库，适配一键生成场景；
 
检查式模板（Check）：要求模型判断事件是否存在，适用于不确定场景。
 
通过配置事件数据库，支持“盲道占用”“危险犬只”等长尾事件的识别。
 
实验验证
提示词测试：使用150张网格事件图像（100正样本、50负样本）测试模型性能。结果显示：
 Qwen-VL在格式规范性、事件识别准确率（F1值0.823-0.894）上显著优于VisualGLM（F1值0.243-0.757）；
 
VisualGLM存在幻觉问题（如生成不存在的事件描述）。
 
微调优化：针对Qwen-VL构建500条标注数据集，加入事件上下文与推理信息，采用LoRA（Low-Rank Adaptation）方法微调，最终模型（Qwen-VL+）的准确率提升2.5%-6.8%，误报率显著降低。
 
定量评估
以精确率（Precision）、召回率（Recall）、F1值为指标，对比不同模板效果。例如，Qwen-VL在检查式模板下F1值达0.855，优于开放式模板（0.823）。
 
主要结果与结论
 1. 模型性能差异：Qwen-VL展现出更强的多模态分析能力和长尾事件识别稳定性，而VisualGLM对提示词顺序敏感且易产生幻觉。
 2. 提示词设计价值：选择式与检查式模板通过整合事件类别库，可将F1值提升约7%。
 3. 微调有效性：添加上下文信息的标注数据结合LoRA方法，能以16GB GPU显存实现高效推理，为资源受限场景提供可行方案。
研究结论指出，多模态大模型可显著扩展网格治理的可发现事件类型，简化工单生成流程，但需进一步解决幻觉问题、推理加速与硬件部署等挑战。未来可通过跨模态数据融合与算力优化，推动该技术在智慧城市中的广泛应用。
研究亮点
 1. 创新性方法：首次将多模态大模型嵌入网格工单生成流程，提出“提示词优化+场景微调”的技术路径。
 2. 实用价值：设计的工单生成方案可直接对接现有城市管理平台，提升社会治理效率。
 3. 开源模型适配：验证了Qwen-VL等国产大模型在城市治理任务中的优越性，为本土化应用提供案例支持。
前瞻方向
 作者建议未来研究关注：多模态数据的实时处理能力、模型轻量化部署，以及跨部门数据壁垒的破除。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问