基于街景与遥感影像融合的多频率街道级城市噪声建模与制图

分享自：
基于街景与遥感影像融合的多频率街道级城市噪声建模与制图

物理学
工程学
期刊:Computers, Environment and Urban SystemsDOI:10.1016/j.compenvurbsys.2026.102401
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：基于街景与遥感图像融合的城市多频率街道级噪声建模与制图
一、 研究作者、机构与发表信息
本研究由Zhang, Yan; Ke, Entong; Kwan, Mei-Po; Fang, Libo; Li, Mingxiao 等学者合作完成。研究论文于2026年6月发表在国际知名期刊 Computers, Environment and Urban Systems 上。该期刊由Elsevier Ltd出版。
二、 研究背景与目标
本研究属于城市环境科学、环境声学与地理信息科学的交叉领域，具体聚焦于城市噪声污染的高精度建模与空间制图。研究的背景源于当前城市噪声污染的严峻现实——它已成为继空气和水污染之后的第三大环境健康威胁。然而，传统的噪声建模与监测方法存在显著局限。首先，基于固定监测站或现场移动测量的方法成本高昂，难以实现大范围、高密度的覆盖，导致数据空间代表性不足。其次，常规方法通常仅关注总声压级（如dBA值），而忽视了噪声的频率组成（频率特性）。不同频率的噪声对人体健康的影响各异，例如低频噪声更容易引发烦恼感并穿透建筑结构。因此，缺乏对噪声频率特性的精细刻画，限制了基于健康的精细化城市规划与噪声管理的科学性。
面对上述挑战，本研究旨在开发一种创新的方法，以克服传统方法的局限。其核心目标包括：1）融合多源城市感知数据，特别是街景图像（Street View Imagery， SVI）与遥感图像（Remote Sensing Imagery， RSI），构建能够精确预测城市街道尺度多频率噪声暴露水平的模型；2）生成高分辨率的城市街道级多频率声景地图，为噪声治理提供精细化的空间决策支持；3）利用可解释机器学习方法，揭示影响街道噪声水平的关键城市视觉要素及其作用机制。最终，该研究期望填补城市噪声频率特性研究领域的空白，并为面向健康的城市规划和精准噪声污染控制提供新的方法论工具。
三、 详细研究流程
本研究设计了一个系统、严谨且包含多个关键环节的技术流程，从数据采集、处理到模型构建、验证与应用，环环相扣。
流程1：研究区域与多源数据采集 研究以中国珠海市香洲区为案例区。数据采集工作构成了本研究实证分析的基础，主要包括三大部分： 1. 视觉数据获取：研究团队获取了研究区域内约6000个点位的高分辨率街景图像（SVI）及与之对齐的遥感图像（RSI）。这些图像数据共同构成了描述城市街道三维建成环境（如建筑立面、道路、植被）和二维宏观格局（如土地利用、绿化覆盖）的视觉特征库。 2. 声学数据采集：这是本研究在数据层面的重要创新之一。为了获取覆盖多频率、高空间密度的街道噪声实测数据，研究采用了志愿者骑行调查的方式。志愿者们携带专业录音设备，沿预定路线骑行，共录得了35,276段街道噪声音频样本。尤为关键的是，这些音频样本经过专业处理，被分解为23个独立的频率带（频率范围从100 Hz到16,000 Hz），覆盖了从低频到高频的典型城市噪声频谱。这为后续的多频率噪声建模提供了独一无二的数据基础。 3. 数据配对与样本构建：将视觉数据与声学数据在空间上精确匹配是模型训练的前提。最终，研究者构建了923个有效的数据对样本，每个样本包含一个特定街道点位的街景图像、遥感图像以及对应的23个频率带的噪声声压级数据。这些样本被随机划分为训练集和验证集，用于后续的机器学习模型开发。
流程2：多源融合模型构建与训练 这是本研究方法的核心创新环节。研究团队构建了一个基于预训练视觉Transformer架构的多源融合深度学习模型。其工作流程可详细阐述如下： 1. 特征提取：模型包含两个并行的特征提取分支。一个分支处理街景图像（SVI），利用预训练的视觉Transformer（ViT）模型提取街道微观视觉特征（如墙面材质、窗户、商铺招牌、行人、车辆等）。另一个分支处理遥感图像（RSI），提取宏观环境特征（如区域建筑密度、道路网络结构、绿地和水体分布等）。 2. 特征融合：将来自SVI和RSI的两个高维特征向量进行深度融合。本研究并未采用简单的拼接（concatenation）方式，而是设计了更高级的融合机制（可能涉及注意力机制或多模态交互模块），使模型能够学习并权衡微观街道场景与宏观城市环境对噪声水平的联合影响。 3. 回归预测：融合后的特征被输入到一个全连接神经网络回归器中，该回归器的输出并非单一的dBA值，而是23个连续数值，分别对应23个目标频率带的噪声声压级预测值。这意味着模型被训练来同时、协同地预测整个噪声频谱，充分考虑了不同频率噪声之间的潜在关联。
流程3：模型验证、分析与可解释性探索 1. 预测精度验证：使用预留的验证集对训练好的模型进行性能评估。主要采用决定系数（R²）作为评价指标。结果显示，模型对不同频率噪声的预测能力存在差异。对于总声压级（dBA）的预测，R²值在0.417到0.649之间。特别值得注意的是，模型对中频段噪声的预测精度最高。这一发现具有实际意义，因为人耳对中频声音最为敏感，且许多交通噪声的主要能量集中在中频。 2. 可解释性分析：为了揭示模型做出预测的“黑箱”逻辑，并验证其物理合理性，研究采用了可解释机器学习技术（如SHAP值或注意力可视化）。通过分析模型中不同视觉特征的重要性，研究定量地识别出了影响噪声预测的四个最关键的城市视觉要素：建筑、道路、人行道和地形。进一步的分析发现，道路宽度与街道噪声水平呈正相关，这与物理声学原理（更宽的道路通常意味着更多的车流量和更高的车速）相符，从而从数据驱动的角度证实了模型的可靠性。
流程4：声景地图生成与应用展示 基于训练好的高精度模型，研究进入了成果应用阶段。研究团队将模型应用于整个案例区所有街道点位的视觉数据（SVI和RSI），生成了空间覆盖完整、频率信息丰富的预测结果。最终，成功绘制了空间分辨率高达50米的街道尺度多频率声景地图。这些地图不仅显示了总噪声水平的空间分布，更能展示特定频率（如低频125-250 Hz，中频1k-4k Hz）噪声的“热点”区域，实现了从单一“声级”制图到多维“声景”制图的跨越。
四、 主要研究结果及其逻辑关联
本研究取得了一系列相互支撑、逐步深入的成果。
首先，在模型性能方面，多源融合模型被证明是有效的。其预测精度（R²最高达0.649）显著优于仅使用单一数据源（如仅用SVI或仅用RSI）的基线模型。这一结果直接证明了融合街景的微观视角和遥感的宏观视角对于捕捉复杂的城市噪声形成机制是必要的。街景图像能捕捉声源的近距离反射面和障碍物（如建筑立面），而遥感图像能反映区域的声源强度和扩散条件（如开阔地或密集建筑区）。特别是中频噪声预测精度更高，这可能是因为中频噪声与道路交通这一主要声源的关联更直接，而模型从视觉数据中（如车道数、车辆密度）学到了这种关联。
其次，可解释性分析的结果不仅增强了模型的透明度，更产生了新的科学发现。识别出“建筑、道路、人行道、地形”为四大关键要素，系统性地总结了影响街道噪声的视觉决定因子。其中，“道路”要素的重要性最高，且“道路宽度”的正向关联被量化证实，这为“拓宽道路可能加剧噪声污染”的常识提供了数据驱动的实证支持，对城市交通和道路设计具有直接的警示意义。这部分结果与模型的高精度预测能力形成了逻辑闭环：正是因为模型抓住了这些物理上合理的核心特征，它才表现出了优秀的预测能力。
最后，也是最直观的成果，是高分辨率多频率声景地图的成功生成。这一结果是前述所有流程——高质量的多频率噪声数据采集、有效的多源融合模型、可靠的预测与验证——的最终产出和综合体现。这些地图将抽象的模型预测转化为可视化的空间知识。例如，地图可以清晰显示哪些街道不仅总噪声高，而且低频噪声突出（可能引发更强的建筑振动和室内烦恼）；哪些区域虽然总噪声不高，但中高频噪声尖锐（对听力危害更大）。这为“精准”噪声管理提供了前所未有的工具：环保部门可以针对特定频率的噪声问题，结合地图上对应的视觉环境特征（如狭窄的峡谷式街道、缺乏绿化屏障的主干道），制定靶向性的降噪措施（如安装特定频率的隔声屏障、优化建筑立面设计、增加绿化带）。
五、 研究结论与价值意义
本研究的结论是系统而有力的。它成功开发并验证了一种基于街景与遥感图像融合、利用深度学习技术实现城市街道级多频率噪声建模与制图的新方法。该方法能够以较低成本实现大范围、高精度的噪声暴露评估，并首次将噪声的频率维度纳入大规模城市尺度的分析中。
其科学价值在于：1）方法论创新：开创性地将多模态视觉数据融合与深度学习应用于环境声学领域，为城市物理环境感知与模拟提供了新范式。2）知识发现：通过可解释AI，定量揭示了城市建成环境视觉要素与多频率噪声暴露之间的复杂关系，深化了对城市声环境形成机理的理解。3）填补空白：有效填补了当前城市噪声研究中普遍缺乏频率特性分析的空白，推动了从“声级”研究向“频谱”研究的转变。
其应用价值尤为突出：1）为精细化城市管理提供“一张图”决策支持：生成的声景地图是城市噪声污染诊断、规划评估和效果模拟的强大工具。2）支持健康导向的城市规划：使规划师能够在设计阶段评估不同规划方案对居民多频率噪声暴露的潜在影响，优先考虑健康友好的设计方案。3）推动公众参与与科普：直观的声景地图有助于公众理解身边的噪声环境，提升环保意识。
六、 研究亮点
本研究的亮点主要体现在以下几个方面：
研究视角新颖：率先将“多频率噪声”而非单一的“总声级”作为核心研究对象，抓住了噪声健康影响的关键维度，研究视角具有前瞻性。
数据采集方法独特：通过大规模志愿者骑行采集海量、多频率的街道噪声音频，构建了珍贵且难以通过传统监测手段获得的研究数据集。
模型架构先进：构建了基于视觉Transformer的多源（SVI+RSI）融合深度学习模型，充分利用了计算机视觉领域的前沿成果，模型设计具有创新性。
技术链条完整：研究形成了从创新数据采集、多源融合建模、模型可解释性分析到高分辨率空间制图的完整技术链条，展示了将人工智能应用于复杂城市环境问题解决的完整逻辑。
成果实用性强：最终产出的50米分辨率多频率声景地图，将前沿学术研究转化为具有直接应用潜力的空间信息产品，体现了良好的产学研结合导向。
开源共享精神：作者在GitHub上公开了项目源代码（https://github.com/giserzy/noiseprediction），促进了研究可重复性和该领域的进一步发展。
七、 其他有价值的内容
除了上述主要内容和亮点，本研究还展示了良好的研究规范和对未来工作的展望。案例研究选择珠海市香洲区，提供了一个具体、完整的实证分析范例。研究中提及的“感知偏差”（Sensing Bias）可能是未来深入探讨的方向，例如不同季节、不同时间的街景图像和噪声数据的变化如何影响模型的普适性。此外，该方法的成功为其他城市环境变量的建模（如城市热岛、空气污染物扩散、街道绿视率评估）提供了可借鉴的技术路径，具有横向迁移的潜力。总体而言，这是一项在问题导向、方法创新和成果应用方面均表现出色的前沿交叉学科研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问