基于街景与遥感影像融合的多频段城市街道级噪声建模与制图

分享自：
基于街景与遥感影像融合的多频段城市街道级噪声建模与制图

建筑与土木工程
工程学
期刊:Computers, Environment and Urban SystemsDOI:10.1016/j.compenvurbsys.2026.102401
【点击此处】阅读全文、收藏及针对性提问
《计算机、环境与城市系统》期刊近期发表了一篇题为《基于街景与遥感影像融合的多频率街道级城市噪声建模与制图》的研究论文。这项研究由香港中文大学空间与地球信息科学研究所的张岩博士与关美宝教授、武汉大学资源与环境科学学院的柯恩童、湖南省建筑设计院集团有限公司的方立波博士及深圳大学土木与交通工程学院的李明晓博士等人共同完成。该研究于2026年1月23日在线发表于该期刊的第126卷。
本研究致力于应对日益严峻的城市噪声污染问题。噪声污染已被认为是继空气和水污染之后对城市居民健康构成第三大威胁的环境因素。然而，传统的噪声建模方法（如固定/移动传感器部署、基于土地利用的静态变量建模或基于时空大数据的间接估计）存在成本高、覆盖面有限、或难以捕捉城市复杂动态环境等局限性。更重要的是，现有方法大多仅关注噪声的总分贝值（A声级），而忽略了噪声的频率特性。不同频率的噪声对人体生理和行为的影响存在显著差异。例如，重型卡车产生的低频噪声穿透力强，能传播更远距离并引发胸闷、心悸等不适；而小汽车和行人对话则以中高频为主。因此，精确识别和建模不同频率的噪声对于科学的城市噪声管理和健康城市规划至关重要。
本研究的核心目标在于：提出一种创新的多源数据融合方法，结合街景影像（SVI）和遥感影像（RSI），利用机器学习技术，在城市街道尺度上对多频率噪声暴露进行精确建模和高分辨率制图。
本研究选取中国广东省珠海市香洲区作为案例区域。研究的详细工作流程严谨，主要包括数据收集、特征提取、模型构建、预测验证及结果解释等环节。
首先，在研究区域内，研究团队招募志愿者在白天非高峰时段沿交通干道骑行，使用经专业设备校准的智能手机（红米Note 11 Pro）每秒采集一次地理坐标噪声数据，最终获得了35,276条记录，每条记录包含23个频率带（从100赫兹到16,000赫兹）的声压级以及总A声级（dBA）。同时，研究团队以50米为间隔沿道路系统性地采集了5953张街景影像（来源：百度地图），并为每个采样点获取了覆盖250×250米范围、分辨率为30米的遥感影像（来源：天地图）。为了建立噪声与建成环境的对应关系，研究将街景影像点位与噪声记录进行空间匹配，筛选出两者距离在15米以内的配对数据，最终构建了包含923个有效配对的样本数据集用于模型训练与验证。
在特征提取与模型构建环节，研究采用了一种基于多源深度特征的混合模型。针对街景影像和遥感影像，研究分别利用了由Meta提供的预训练Vision Transformer模型进行高层语义特征提取。具体而言，街景影像使用了在网页图像数据集（LVD-1689M）上预训练的DINOv3-ViTB16模型，而遥感影像则使用了在卫星图像数据集（SAT-493M）上预训练的DINOv3-ViTL16模型。模型从两种影像中分别提取出768维和1024维的特征嵌入向量，然后将它们拼接成一个1792维的组合特征向量。这一方法巧妙地将街景影像提供的微观、人视角度的街道细节（如建筑立面、人行道、车辆、行人）与遥感影像提供的宏观、鸟瞰角度的城市形态（如土地利用、建筑密度、植被覆盖）进行了互补性融合。随后，研究利用这个融合特征向量作为输入，构建了支持向量回归（SVR）等机器学习模型来预测总噪声水平以及低、中、高三个频段的噪声水平。
为了增强模型的可解释性，研究还引入了基于语义分割的辅助分析方法。利用在Cityscapes数据集上微调的预训练SegFormer模型，对街景影像进行像素级语义分割，提取出道路、人行道、建筑、植被等19类街道元素的覆盖比例。随后，基于这些可解释的视觉特征训练了一个XGBoost回归模型，并采用SHAP（沙普利加性解释）值来分析各街道元素对噪声预测的贡献度，从而揭示城市建成环境特征与噪声水平之间的关联关系。
本研究的主要结果内容丰富，且环环相扣。
首先，通过对采集噪声数据的分析发现，城市街道尺度的噪声主要集中在中低频段，这是城市交通噪声的典型特征。箱线图分析显示，中低频段噪声强度较高且变异性较大，而高频段噪声强度则显著降低。这种非均匀分布的特性凸显了分频段建模的必要性。
在模型性能评估方面，研究比较了仅使用街景特征、仅使用遥感特征以及融合多源特征三种模式下多种机器学习算法的表现。结果明确显示，多源融合模型取得了最佳的预测精度。以25米缓冲区（对应50米空间分辨率）的SVR模型对总A声级的预测为例，融合模型的预测决定系数（R²）为0.417至0.649（具体值取决于缓冲区大小，100米缓冲区下可达0.649）。在不同频率的噪声预测中，中频噪声的预测精度最高（R²可达0.594），这可能是因为中频噪声与交通流、商业活动等易于被视觉特征捕捉的人类活动模式关联更强。而低频噪声的预测最具挑战性，尽管遥感特征在该频段表现相对更好，但可能由于低频声波传播距离长，受静态视觉环境影响较小。
研究成功生成了50米空间分辨率的街道级多频率声景观地图。空间分布分析表明，仅基于遥感特征的模型预测结果呈现明显的块状模式，缺乏精细空间变异；而仅基于街景特征的模型则能捕捉更丰富的空间异质性，但易受瞬时交通和行人密度影响，可能导致同一街道两侧预测不一致。相比之下，融合模型的预测结果在空间上更为均匀和一致，同时保留了必要的细粒度空间异质性。生成的噪声地图清晰显示，主要交通干道与低频噪声呈现更强的相关性，而城市区域道路则与中高频噪声呈正相关。
在可解释性分析方面，基于SHAP值的结果量化了不同街道视觉元素对噪声预测的影响。全局特征重要性排名显示，建筑物、道路、人行道和地形是影响噪声预测最重要的四个因素。部分依赖图进一步揭示了这些要素与噪声水平的非线性关系。例如，道路宽度与噪声水平呈正相关，较宽的道路通常需要容纳更大的交通流量和更高的车速，且缺乏声屏障，导致噪声水平更高。而地形（主要指路缘石、绿化带等）的影响则更为复杂：较低比例的硬质路缘石会轻微提升噪声，但当绿地或土壤等具有吸声属性的软质表面比例增加时，则有助于抑制噪声水平。这些发现为基于视觉要素的噪声评估和城市规划提供了直接的依据。
本研究的结论是，该工作成功地构建并验证了一个集成街景影像微观视角与遥感影像宏观视角的多模态机器学习框架，在城市街道尺度的多光谱噪声预测和高分辨率制图方面取得了显著突破。该方法不仅克服了单一数据源的固有局限，还为低成本的、大规模的城市声环境监测提供了新的范式。
本研究的价值体现在多个层面。在科学价值上，它弥补了城市噪声频率特性研究的空白，推动了从单一“响度”维度向“频谱”维度的精细化噪声研究范式转变。在方法论上，创新性地将视觉Transformer架构、多源数据融合与可解释机器学习相结合，为城市环境感知研究提供了新的技术路径。在应用价值上，生成的高分辨率多频率噪声地图能为精细化城市噪声管理、健康导向的城市规划以及公共健康政策制定提供强有力的科学数据支持与决策工具。
本研究的亮点突出：其一，研究视角新颖，首次系统性地将多频率噪声特性纳入基于视觉的街道级建模框架；其二，方法创新性强，深度融合了街景与遥感两种互补的视觉数据源，有效缓解了街景影像的“时间偏差”和遥感影像的“微观感知不足”问题；其三，成果实用性好，不仅提供了高精度的预测模型，还生成了可直接用于规划实践的50米分辨率多频率噪声地图，并通过可解释分析揭示了关键影响要素，兼具预测能力与洞察力。
此外，研究团队开源了相关代码，并讨论了未来可扩展的方向，如整合动态交通数据、气象条件等，以构建更全面的城市声环境时空动态监测系统。虽然研究在模型泛化能力和数据时效性方面仍有提升空间，但其构建的方法框架具有良好的可扩展性，为后续研究奠定了坚实的基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问