本研究题为“a study on the relationship between internet popularity and emotional perception of urban parks using weibo data in luoyang, china”,由Yipeng Ge、Yafei Guo、Yueshan Ma、Songjie Ma、Yang Liu及Xinjie Qin共同完成,通讯作者为Yueshan Ma。作者单位主要为河南科技大学土木工程学院(School of Civil Engineering and Architecture, Henan University of Science and Technology)与洛阳市土地储备中心(Luoyang Land Reserve Center)。该研究发表于《Scientific Reports》期刊,时间标注为2025年。
学术背景与目标 该研究属于城市生态学、景观感知与公众健康交叉领域,具体关注城市公园在社交媒体时代对公众情感福祉的影响。随着全球城市化进程加速,城市绿色空间(Urban Green Spaces, UGSs)尤其是公园,在提供生态系统服务(如调节气候、管理雨水)和促进公众休闲、社交互动方面扮演着不可或缺的角色。现有大量研究证实,接触公园对居民心理健康有积极影响。然而,传统研究多侧重于使用卫星遥感或街景图像计算的客观环境指标,如归一化植被指数(Normalized Difference Vegetation Index, NDVI)和绿视率(Green View Index, GVI),来量化绿色空间暴露及其与公众情绪的关系,而往往忽视了在社交媒体时代背景下,公园的“网络人气”(Internet Popularity, INPY)作为一种新兴的动态社会因素,可能对公众情感感知产生的影响。此外,季节性因素对公园情感体验的潜在调节作用也常被忽略。
因此,本研究旨在填补上述研究空白,其核心目标是探究中国洛阳市城市公园的网络人气(INPY)与公众情感感知(Emotional Perception, ETPN)之间的关系。研究特别关注以下三个问题:(1)公园的INPY、GVI和NDVI是否与公众情绪相关?(2)不同季节是否影响INPY与公众情绪?情绪维度间是否存在差异?(3)哪些环境因素对公众情绪影响最大?通过整合社交媒体数据(Social Media Data, SMD)、街景图像和遥感数据,该研究试图为城市规划和公园管理提供一个结合线上动态人气与线下实体环境特征的新视角。
详细工作流程 本研究工作流程严谨且多步骤集成,主要包括研究区域与对象确定、多源数据采集与处理、变量计算、模型构建与分析以及主题挖掘等环节。
第一,研究区域与对象确定。 研究选取中国河南省洛阳市中心城区作为案例。洛阳以其丰富的历史文化遗产和自然景观著称。研究通过微博签到平台,以“城市公园”为关键词搜索,并结合百度地图等在线平台进行筛选,最终确定了50个不同等级、类型和面积的公园作为研究对象。公园的类型、等级和面积依据相关文献和中国《城市绿地分类标准》进行确定,例如包括龙门石窟(特专公园,176.15公顷)、洛邑古城(特专公园,13.84公顷)、隋唐洛阳城国家遗址公园等。
第二,多源数据采集与处理。 研究收集了2023年全年洛阳市的微博数据。使用Python脚本抓取,关键字段包括用户ID、文本内容、发布时间、经纬度。经过严格的数据清洗(如剔除地理范围外、重复、非中文、空白内容、地理位置不精确以及疑似广告或机器人的帖子),并排除了未被百度街景覆盖的数据后,最终从50个公园获得了41,675条有效微博数据。这些数据将用于计算INPY和情感感知。对于大型公园内存在多个热门签到点的情况,研究根据微博发帖频率比例进行了数据聚合处理,以确保数据代表性。
第三,核心变量计算。 这是研究的关键创新环节,涉及三类变量的量化。 1. 网络人气(INPY)计算:研究借鉴了抖音人气分的计算公式,并结合层次分析法(Analytic Hierarchy Process, AHP)和专家打分确定了各组成部分的权重。计算公式为:H = 签到频率(F) × 0.5688 + 转发数® × 0.0659 + 评论数© × 0.128 + 点赞数(L) × 0.2372。据此计算了50个公园全年及四季的INPY值。 2. 情感感知(ETPN)与情感梯度(Emotional Gradient, ETGD)计算:使用Python的SnowNLP库对微博文本进行情感分析。为提高准确性,研究者额外收集了12万条其他地区的数据进行人工标注(积极/消极),并以此训练模型,最终模型准确率达到0.97。情感得分范围0-1,越接近1表示情绪越积极。为进一步细化感知差异,研究者将情感值划分为五个梯度:N(消极,0-0.2)、RN(相对消极,0.2-0.4)、M(中等,0.4-0.6)、RP(相对积极,0.6-0.8)、P(积极,0.8-1)。 3. 绿色空间暴露指标计算: * NDVI:基于美国地质调查局(USGS)获取的2023年6月23日Landsat 8 OLI_TIRS无云影像(分辨率30米),在QGIS平台上进行几何和大气校正后计算得出。 * GVI:基于OpenStreetMap(OSM)道路网络数据,每隔50米设置采样点,通过百度地图API获取每个点四个方向的街景图像,共计175,284张。使用PyTorch框架下的DeepLabV3Plus-Mobilenet预训练模型进行语义分割,识别植被像素,计算每张图像中植被像素占总像素的比例作为GVI值。 为探究不同空间尺度的影响,研究计算了每个公园周围200米、500米和1000米圆形缓冲区内的平均NDVI和GVI值。
第四,统计模型构建。 为回答不同研究问题,研究构建了三个核心统计模型。 1. 多元线性回归模型(Multiple Linear Regression, MLR,模型1):以整体情感感知值(ETPN)为因变量,以INPY和各尺度NDVI、GVI为自变量,用于探究这些变量与整体情绪的关系。建模前通过皮尔逊相关性和方差膨胀因子(VIF)检验筛选变量、排除多重共线性。 2. 多任务LassoCV回归模型(Multitask LassoCV,模型2):以五个情感梯度(ETGD:N, RN, M, RP, P)为因变量(多任务),同样以INPY和各尺度NDVI、GVI为自变量。该模型能同时考察多个变量对不同情绪梯度的影响,并通过内置交叉验证确定最优正则化参数。为进一步增强结果可信度,使用了Bootstrap方法(1000次重抽样)计算了回归系数的95%置信区间。 3. 分层线性模型(Hierarchical Linear Modeling, HLM,模型3):用于探究季节因素对变量间关系的调节作用。模型将季节(季度)设置为随机截距,将ETPN或ETGD作为因变量,INPY、NDVI、GVI作为自变量(其中NDVI和GVI作为不随时间变化的静态变量)。此模型能揭示不同季节下,自变量对因变量影响的差异。 此外,研究还辅助使用了随机森林模型(Random Forest)来评估各变量对ETPN和ETGD的重要性排序,以直观展示非线性关系。
第五,文本聚类分析。 为了深入理解影响公众情绪的具体语境因素,研究对热门公园的微博评论进行了文本聚类。步骤包括:(1)使用TF-IDF(词频-逆文档频率)方法从积极和消极评论中分别提取前50个关键词;(2)利用腾讯AI Lab词向量将关键词向量化;(3)使用K-Means算法对关键词进行聚类,并通过平均轮廓宽度确定最佳聚类数,最后使用UMAP算法降维可视化。
主要研究结果 结果一:INPY、NDVI、GVI与公众情绪的关系具有复杂性和尺度特异性。 1. 与整体情感感知(ETPN)的关系:Spearman相关性分析显示,INPY、各尺度NDVI、GVI与空间情绪(基于地理坐标耦合)的简单相关性不显著。然而,在控制变量后的MLR模型(模型1)中,200米尺度的NDVI对整体ETPN有显著正向影响,表明小范围近距离的植被绿化能提升公众的整体情绪感知。其他变量在模型中的影响不显著。 2. 与情感梯度(ETGD)的关系:相关性分析表明,INPY与所有五个情感梯度均呈显著正相关,且相关系数随着情绪从消极(N)向积极(P)过渡而逐渐增大(从0.879增至0.970),提示存在潜在的线性增长关系。而NDVI和GVI与不同情感梯度的相关性模式较为复杂,例如,1000米尺度NDVI与消极梯度(N,RN,M,RP)呈显著负相关,200米尺度GVI与多个梯度(RN,M,RP,P)呈显著负相关。 多任务LassoCV回归(模型2)的结果更为深入: * INPY:对全部五个情感梯度均有显著正向影响,其回归系数从N(0.882)到P(0.945)逐渐增大,证实了INPY的提升与情绪向积极方向转变密切相关。 * NDVI:其影响具有尺度差异。500米和1000米尺度的NDVI与积极情绪(P)呈强正相关(系数分别为0.131和0.089),表明较大范围的植被健康状况对促进积极情绪至关重要。而200米尺度NDVI则与消极情绪(N)呈负相关。 * GVI:200米尺度的GVI与消极情绪(N)呈负相关(系数约-0.075),说明小尺度可见绿植有助于缓解负面情绪。该模型整体R²为0.613,解释了情感梯度61.3%的变异。 3. 变量重要性排序:随机森林模型分析进一步确认,在影响公众情绪(包括整体ETPN和各ETGD)的所有因素中,INPY的重要性均排名第一,超过了传统的NDVI和GVI指标。
结果二:季节因素调节了INPY对情绪感知的影响。 分层线性模型(HLM,模型3)揭示了季节的动态作用: * 对于整体ETPN,INPY有轻微的积极影响(系数0.001)。NDVI和GVI的影响随尺度变化:1000米尺度GVI对ETPN有显著正向影响,而1000米尺度NDVI有负向影响;500米尺度NDVI则有正向影响。季节随机效应对整体ETPN的影响不显著(组间方差为0)。 * 对于情感梯度(ETGD),INPY对所有情绪维度均有显著正向影响,尤其对积极情绪(P)的促进效应最强(系数0.319)。更重要的是,季节随机效应在相对积极(RP)和积极(P)情绪上表现出较大的组间方差,表明季节变化对积极情绪的表达有更强的调节作用。不同季节的环境和社会因素(如节假日、文化活动)能显著影响人们的积极情绪表达。
结果三:公园特征(类型、等级、面积)与INPY及ETPN无显著关联。 通过Kruskal-Wallis H检验和Spearman相关分析发现,公园的类型、等级和面积与其网络人气(INPY)和游客整体情感感知(ETPN)均无显著相关性。这意味着,更大、等级更高的公园并不必然吸引更多线上关注或带来更积极的情绪体验。这凸显了在洛阳这样的历史文化名城,公园的旅游观光和文化属性可能比其传统的分类学特征更具影响力。
结果四:影响情绪的具体语境因素存在差异。 文本聚类分析揭示了游客积极与消极评价关注点的不同: * 积极评论:主要围绕公园的美学价值,关键词多与“快乐”、“壮观”、“浪漫”等相关,聚类主题包括游客体验、自然环境、传统节日、文化设施、休闲活动等。形容词和动词占主导。 * 消极评论:则聚焦于管理问题,高频词包括“雨”、“太多”、“不想”、“地铁”、“可惜”以及具体到龙门石窟的“排队”、“拥挤”、“累”等。聚类主题集中在票务、服务设施、交通设施、游客体验(拥挤)等方面。名词是主要词性。 这种差异反映了游客对城市公园作为多功能空间的不同期望:积极情绪多与景观审美和环境舒适度相关;而消极情绪常由管理不善、拥挤和设施不便引发。
结论与意义 本研究得出以下核心结论: 1. 网络人气(INPY) 对从消极到积极的各个情感梯度均产生不同程度的正向影响,且影响强度随情绪梯度的升高而增强。 2. 绿色空间指标的影响具有尺度与情绪特异性:200米尺度的绿视率(GVI)与消极情绪呈负相关;而500米和1000米尺度的归一化植被指数(NDVI)则对积极情绪有显著正向影响。 3. 季节因素能够调节情绪表达,特别是对相对积极和积极情绪的影响更为明显。 4. 综合来看,INPY主要影响积极情绪,而GVI和NDVI则在缓解消极情绪、提升整体情感感知方面发挥作用。
该研究的价值体现在: * 科学价值:创新性地将动态的“网络人气”指标纳入城市公园情感评价框架,与传统的静态环境指标(NDVI, GVI)相结合,丰富了景观感知和城市生态学研究的方法论。研究揭示了线上社会动态与线下实体环境体验之间的关联,并明确了季节的调节作用,为理解复杂城市系统中人-环境-技术交互提供了新证据。 * 应用价值:为城市规划和公园管理提供了具体、可操作的见解。建议管理者:(1)利用多源数据分析,优先优化高人气、高可见度区域的绿化品质,并在低可达性但绿化好的区域加强基础设施(如步道、公共交通连接)以减轻负面情绪;(2)重视季节性管理,在旅游旺季(如第二、四季度)通过组织节庆活动、实施人流监测和预约制度来提升体验、缓解拥挤;(3)针对游客反馈,重点改善公园管理(如排队、拥挤问题)、维护服务设施、丰富活动内容,以满足多元化需求,提升公园的社会价值和文化功能。
研究亮点 1. 研究视角新颖:首次系统性地将社交媒体衍生的“网络人气”作为核心自变量,探讨其与公众情感感知的关系,突破了传统研究仅关注客观环境指标的局限。 2. 方法论综合创新:整合了社交媒体大数据(微博)、街景图像(百度API)、遥感数据(Landsat)等多源数据,并综合运用了MLR、多任务LassoCV、HLM、随机森林等多种统计与机器学习模型,以及TF-IDF、词向量和聚类等自然语言处理技术,构成了一个全面、多层次的分析框架。 3. 发现具有深度与特异性:不仅证实了INPY的普遍积极影响,还精细刻画了NDVI和GVI在不同空间尺度上对不同情绪维度(消极vs积极)的差异化作用,并揭示了季节对积极情绪的显著调节效应。研究结论细致而富有洞察力。 4. 紧密联系实际:基于洛阳的具体案例,研究结果对中国众多历史文化名城和旅游城市的公园规划与管理具有直接的参考意义。提出的管理建议具体且基于数据驱动。
其他有价值的补充 研究也坦诚指出了其局限性:微博用户样本可能无法完全代表全体市民;AHP权重确定具有一定主观性;NDVI和GVI数据为单一时点,未能反映季节变化。这些为未来研究指明了方向,例如整合更多元的数据源(如抖音、现场观察、调查问卷)、纳入季度性环境指标、进行跨文化比较研究等,以进一步深化相关认识。