学术研究报告:基于搜索大数据的非连续性情境下经济指标实时预测方法
一、作者及研究发表信息
本研究由Goshi Aoki(庆应义塾大学政策管理学院)、Kazuto Ataka(庆应义塾大学环境与信息研究学院)、Takero Doi(庆应义塾大学经济学院)及Kota Tsubouchi(Yahoo Japan Corporation)合作完成,发表于The Journal of Finance and Data Science(2023年9月,卷9,文章编号100106)。
二、学术背景与研究目标
科学领域与研究动机
本研究属于经济预测(nowcasting)与大数据分析交叉领域。传统经济指标(如日本内阁府发布的景气一致指数CI和消费者信心指数CCI)因依赖宏观统计数据存在发布滞后性(如延迟2个月),难以应对突发经济波动(如COVID-19疫情)。现有研究多基于人工筛选的宏观经济变量或社交媒体关键词,但面临主观偏差和适应性不足的局限。
研究目标
开发一种全数据驱动方法,利用搜索引擎查询数据(search big data)实时预测经济指标,尤其验证其在非连续性经济情境(如疫情)下的鲁棒性,并探索影响经济指标的人类行为模式。
三、研究流程与方法
1. 数据来源与预处理
- 数据对象:2006年1月至2021年3月日本Yahoo!搜索平台的查询日志(日均超10次查询的30万条稳定查询词)。
- 经济指标:日本内阁府的景气一致指数(Coincident Index, CI)和消费者信心指数(Consumer Confidence Index, CCI)(月频数据)。
- 预处理:剔除低频查询,保留与经济活动潜在相关的查询词。
2. 查询选择与建模
采用四步流程构建预测模型:
1. 单相关性分析:计算每个查询词与CI/CCI的Pearson相关系数,筛选高相关词(如“札幌风俗服务”与CI正相关,相关系数0.66;“石田明”喜剧演员与CI负相关,系数-0.79)。
2. 多重共线性处理:通过方差膨胀因子(VIF<10)剔除共线性查询,确保模型稳定性。 3. **显著性检验**:逐步剔除p值>0.05的查询,保留统计显著的变量。
4. 验证优化:基于目标月前12个月数据计算均方误差(MSE),选择最优查询组合。
3. 模型对比与评估
- 对比模型:包括传统宏观经济指标模型(macro)、单查询回归模型(single-query)及7种基于人工筛选查询的模型(如Vosen 2011、Chen 2015等)。
- 评估指标:MSE,分“疫情前”(2020年4月前)和“疫情期”(2020年4月-2021年3月)两阶段验证。
四、主要研究结果
1. 预测性能
- 全数据驱动模型在疫情前后的MSE稳定性显著优于其他模型(CI:疫情前31.8 vs. 疫情期34.4;CCI:21.9 vs. 22.5),而传统宏观模型(macro)在疫情期MSE恶化10倍以上。
- 人工筛选查询模型在疫情期表现崩溃(如Chen 2015模型的CI预测MSE从11.4升至174.2),因其无法捕捉非连续性情境下的新兴查询模式。
2. 关键查询分析
- 经济相关查询:如“雇佣调整补助金”(koyojoseikin)与CI强负相关,反映经济下行时搜索增加。
- 人类基本需求查询:成人娱乐(如“札幌风俗”)和喜剧演员(如“石田明”)分别与CI正/负相关,表明娱乐需求与经济波动存在量化关联。
- 疫情期特征:娱乐类查询权重上升(CCI模型中占比翻倍),说明突发危机下人类心理需求对经济信号的影响增强。
3. 模型鲁棒性验证
- 机器学习对比:随机森林和XGBoost在疫情前表现更优,但疫情期过拟合严重;多元线性回归稳定性最佳。
- 实时性:模型可提前1-2个月预测政府发布的指标值,尤其擅长捕捉经济骤降(如2020年4月CI骤跌)。
五、研究结论与价值
科学价值
- 方法论创新:首次实现完全数据驱动的经济预测,摆脱人工筛选变量的主观性。
- 理论拓展:揭示人类本能需求(如娱乐、性)与经济指标的动态关联,为行为经济学提供新证据。
- 技术普适性:模型框架可迁移至其他突发经济事件(如地震、金融危机)的实时监测。
应用价值
- 政策制定:为政府和企业提供高频、抗干扰的经济态势感知工具。
- 商业决策:基于搜索趋势的实时预测可优化库存、营销等策略。
六、研究亮点
- 非连续性适应能力:首次在COVID-19等极端场景下验证大数据预测的鲁棒性。
- 全自动化流程:从查询筛选到建模无需人工干预,可扩展性强。
- 跨学科融合:结合计量经济学、大数据挖掘与心理学,开创经济预测新范式。
七、其他发现与局限
- 局限性:
- 对经济复苏速度可能过度乐观;
- 训练数据时间跨度影响预测精度(如2008年金融危机数据不足导致效果不佳);
- 依赖特定搜索引擎数据(Yahoo!日本)。
- 未来方向:整合多语言查询数据,优化突发事件的长期预测。
(注:文中术语首次出现均保留英文原词,如nowcasting(实时预测)、search big data(搜索大数据)等。)