作者及机构
本研究由来自加拿大不列颠哥伦比亚大学(University of British Columbia)国家公园研究中心的Dehui Christina Geng、Wanli Wu和Guangyu Wang领衔,联合阿尔伯塔大学(University of Alberta)、华盛顿大学(University of Washington)等机构的学者共同完成,发表于Journal of Forestry Research(2024年第35卷)。
研究领域与动机
本研究属于旅游管理(tourism management)与空间地理信息科学的交叉领域,聚焦新冠疫情(COVID-19)对加拿大落基山脉四大国家公园(班夫、贾斯珀、优鹤和库特尼国家公园)游客时空分布的影响。疫情导致全球旅游业管理面临挑战,而国家公园作为绿色基础设施(green infrastructure),其游客行为的变化对资源分配和可持续发展至关重要。
科学问题
传统游客数据依赖实地调查和问卷,但疫情限制了数据收集。本研究创新性地利用社交媒体大数据(social media big data,包括Flickr和Twitter的地理标记数据),结合地理加权回归模型(Geographically Weighted Regression, GWR),分析疫情前后游客时空模式的变化及其驱动因素。
数据来源
- Flickr:2004年成立的图片分享平台,提供地理标记(geotagged)的图片、时间戳及用户信息。通过API获取2010–2022年数据,共137,971条记录。
- Twitter:通过学术API获取2010–2022年文本及含图片的推文,共22,117条含图像数据和425,016条纯文本数据。
数据清洗
- 地理过滤:使用公园边界多边形剔除边界外数据(如班夫国家公园的示例图)。
- 去重:通过图片哈希值(16×16像素灰度矩阵)剔除跨平台重复内容。
时间维度
- Photo-User-Day (PUD):统计每日独立用户发帖量,避免同一用户多次发帖的偏差。
- 季节性分析:对比2019(疫情前)、2020–2021(疫情中)的月度访问量变化。
空间维度
- 热力图与散点图:可视化游客分布变化。
- 地理加权回归(GWR):分析游客密度与公园资源(步道、主要道路、水域、露营地等)的空间关系。模型公式如下:
[ yi = \beta{i0} + \beta{i1}x{1i} + \beta{i2}x{2i} + \ldots + \beta{in}x{ni} + \varepsilon_i ] 其中,因变量为游客密度(每平方公里网格内的游客数),自变量为网格中心点到最近公园资源的距离。
科学价值
- 验证了社交媒体大数据在旅游管理中的可靠性,为疫情等特殊时期的游客监测提供了低成本、高时空分辨率的方法。
- 揭示了疫情对游客行为的“去中心化”影响,为公园应对突发公共卫生事件提供实证依据。
应用价值
- 管理优化:通过GWR模型预测游客密度,指导设施布局和资源分配。
- 政策建议:鼓励露营等低密度活动,减少传统热点的环境压力。
其他价值
附录中提供了2011–2021年游客分布图(Appendix 1)、公园资源与游客密度关系图(Appendix 2)及GWR预测图(Appendix 3),可作为后续研究的基准数据集。