这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由以下团队合作完成:
- Penglei Sun(香港科技大学广州校区)
- Yaoxian Song(浙江大学)
- Xiang Liu(香港科技大学广州校区)
- Xiaofei Yang(广州大学)
- Qiang Wang(哈尔滨工业大学深圳校区)
- Tiefeng Li(浙江大学)
- Yang Yang 和 Xiaowen Chu(香港科技大学广州校区)
论文发表于ACM Multimedia 2024(2024年10月28日-11月1日,澳大利亚墨尔本),标题为《3D Question Answering for City Scene Understanding》。
本研究属于计算机视觉与自然语言处理的交叉领域,聚焦于3D多模态问答(3D Multimodal Question Answering, 3D MQA)在城市场景理解中的应用。现有研究主要集中于室内家居场景(如ScanQA、CLEVR3D)和自动驾驶场景(如NuScenes-QA),但城市级场景理解因缺乏空间语义信息和人与环境交互数据而面临挑战。
流程分三阶段:
- 城市级实例分割:基于预训练模型(如UrbanBIS)对6个城市(青岛、芜湖、龙华等)的2.5亿点云数据分割实例,涵盖建筑、植被、车辆等3,370个实例。
- 场景语义提取:构建图结构的场景语义信息,包括:
- 空间信息:三元组(实例A, 空间关系, 实例B),如“住宅楼-左侧-商业楼”。
- 语义信息:三元组(实例, 属性, 值),如“交通建筑-用途-购票”。
- 问答对生成:设计33类问题模板(如实例识别、用途查询、空间比较),通过LLM(GPT-3.5)结合场景语义生成45万问答对,并通过人工评估确保质量。
创新点:首次整合城市级语义与交互任务,支持多跳推理(如“文化建筑最近的办公或商业建筑是哪个?”)。
模型架构:
1. 多模态编码器:
- 点云编码:使用VoteNet(基于PointNet++)提取实例提案特征。
- 文本编码:BERT编码问题文本。
- 场景图编码:通过图神经网络(GCN)建模实例空间关系。
2. 融合层:设计多模态融合网络(MMFN),结合自注意力与交叉注意力机制对齐视觉、文本与图特征。
3. 答案生成层:通过MLP映射融合特征至答案空间,采用交叉熵损失训练。
技术亮点:
- 场景图增强:显式建模城市级稀疏语义,提升长距离关系推理能力。
- 多模态对齐:MMFN层动态融合点云、文本与图结构特征。
数据集性能:
方法对比实验:
消融实验:
(报告字数:约2000字)