作者及机构
本研究报告由Peijun Feng(中国地质大学(武汉)计算机学院)、Zheng Ma(中国地质大学(武汉)信息化办公室)、Jining Yan(中国地质大学(武汉)计算机学院/自然资源信息管理与数字孪生工程软件教育部工程研究中心)、Leigang Sun(河北省科学院地理科学研究所/河北省地理信息应用技术创新中心)、Nan Wu、Luxiao Cheng(湖北工业大学计算机学院)、Dongmei Yan(中国科学院空天信息创新研究院/可持续发展大数据国际研究中心)共同完成,发表于《International Journal of Digital Earth》2025年18卷1期(DOI:10.1080⁄17538947.2025.2479863)。
科学领域与研究动机
人口空间分布数据对区域规划、灾害管理、公共资源配置具有重要意义。联合国可持续发展目标(SDGs)强调需精准掌握人口分布以实现”包容、安全、可持续的城市和人类住区”。现有人口空间化方法存在两大核心问题:
1. 尺度不匹配:直接从行政区级(如乡镇)下推至网格级(如100米)时,因尺度差异导致特征表征偏差(spatial scale mismatch);
2. 数据异质性:现有多源数据(如夜光遥感、POI)在细粒度单元存在空间分辨率不足或同质化问题,难以捕捉人口分布的微观差异。
研究目标
提出一种融合Transformer与CNN的深度学习框架(TFACNet),通过构建跨尺度训练策略(100米→25米)和多源数据特征融合方法,实现25米高分辨率人口空间分布建模。
数据来源
- 人口数据:2020年中国乡镇级人口普查数据、WorldPop(100米)、LandScan(1公里)网格数据集
- 遥感数据:CLCD土地覆盖(30米)、NPP/VIIRS夜光数据(500米)、ASTER GDEM(30米)、NDVI(30米)
- 社会感知数据:高德地图POI(分为餐饮、交通设施、医疗等10类)
数据处理
- 空间一致性处理:将所有数据统一至WGS84坐标系,通过核密度分析将POI向量数据转为热力图张量
- 人口标签校正:结合普查数据对WorldPop网格数据进行校准(公式1),构建100米/25米分辨率的训练标签
- 特征标准化:采用均值-方差归一化消除多源数据量纲差异
创新性设计
1. 空间关系建模
- 以目标网格为中心生成15×15邻域图像块,通过一阶邻接矩阵编码空间依赖关系(公式2)
全局特征提取(Transformer模块)
特征融合策略(FAFS)
局部特征提取(CNN模块)
训练细节
- 数据集:武汉(训练集926,684样本)与桂林(训练集2,722,381样本),测试集占比20%
- 超参数:初始学习率0.01(衰减率0.995/epoch),批大小256,150个epoch
- 硬件:NVIDIA Tesla A100 GPU
验证方法
- 街道级聚合验证:将25米网格人口汇总至街道尺度,与普查数据对比
- 评估指标:R²、RMSE、MAE
定量结果(表2)
- 在武汉和桂林的测试中,TFACNet的R²分别达0.919和0.916,显著优于CNN(0.853⁄0.812)、MLP(0.833⁄0.829)和XGBoost(0.858⁄0.870)
- 与传统人口产品相比:
- WorldPop在武汉的R²为0.471,LandScan为0.448
- 街道级误差分析显示,本方法在武汉56%街道的误差万人,远优于WorldPop(43%)和LandScan(34%)
可视化对比(图7)
- 相比WorldPop的均匀分布倾向和LandScan的边缘锯齿效应,TFACNet能更精准识别城市次级中心(如武汉蔡甸街、桂林灵川镇)
- 通过POI数据增强,模型可刻画商业区、交通枢纽等局部人口聚集特征
方法论创新:
数据融合突破:
亮点总结
1. 率先实现25米网格尺度的人口空间化(R²>0.91)
2. 创新性融合Transformer与CNN,构建”全局-局部”双重空间关系模型
3. 提出特征注意力融合策略(FAFS),自适应平衡多源数据贡献
4. 建立融合普查数据的网格校正方法,提升WorldPop等开放数据的本地适用性