本研究的主要作者为 Stéphane Bonhomme 和 Elena Manresa。研究论文题为“Grouped Patterns of Heterogeneity in Panel Data”,于2015年5月发表在经济学顶级期刊 *Econometrica*(第83卷第3期,第1147–1184页)。
本研究属于计量经济学领域,具体关注面板数据模型的设定、估计与推断方法。
在实证研究中,工人、企业或国家之间存在大量计量经济学家无法观测到的异质性。应用研究人员通常面临一个权衡:是采用灵活的方法来建模这种未观测到的异质性,还是构建简洁、与数据适配度更高的模型设定。传统的处理方法是使用个体特异性、时间不变的固定效应。固定效应方法的吸引力在于允许未观测效应与协变量之间存在无限制的相关性。然而,在包含与个体数量一样多参数的模型中,公共参数的估计会受到“伴随参数”偏差的影响,这在短面板中可能非常显著,且固定效应本身往往估计不佳。此外,标准固定效应方法假设未观测异质性不随时间变化,这可能是一种限制性过强的假设。
本研究的核心目标是提出一种在面板数据背景下,允许未观测异质性存在的既灵活又简洁的方法。具体而言,论文引入了一种包含时变分组异质性模式的线性面板数据模型。其显著特点是:个体所属的组别成员身份是不受限制的,可以从数据中估计得出。研究者希望建立一个框架,允许未观测异质性具有共同的、在个体组内共享的聚类时间模式,同时保持与固定效应类似的优点,即允许未观测效应与协变量之间的一般性相关。
本研究是一项理论与应用相结合的计量经济学研究,其流程主要包括以下几个核心部分:模型提出与估计量定义、理论性质推导、计算算法开发、蒙特卡洛模拟验证以及实证应用。
研究对象:线性面板数据模型,其一般形式为: y_it = x'_it * θ + α_{g_i t} + v_it 其中,i = 1, ..., n 代表横截面单位(如个人、企业、国家),t = 1, ..., T 代表时间。x_it 是协变量向量,θ 是共同的参数向量。关键创新在于 α_{g_i t},它代表组别特异性时变效应。g_i ∈ {1, ..., G} 是未知的个体分组成员变量,G 是研究者设定或估计的组数。属于同一组的个体共享相同的时变路径 α_{gt}。误差项 v_it 与 x_it 同期不相关,但可以与组别特异性未观测项 α_{g_i t} 任意相关。
核心估计量——分组固定效应估计量: 研究者提出了“分组固定效应”(Grouped Fixed-Effects, GFE)估计量,其通过最小化一个关于所有可能分组的最小二乘准则来估计模型参数: (θ_hat, α_hat, γ_hat) = argmin Σ_i Σ_t ( y_it - x'_it * θ - α_{g_i t} )^2 其中,最小值在所有可能的分组 γ = {g_1, ..., g_n}、参数 θ 和组别时变效应 α 上取。这本质上是一个最优分组问题,将与协变量效应(x'_it * θ)剥离后的结果时间轮廓最相似的个体分在一组进行估计。
模型扩展: - 扩展1(加入个体固定效应):模型 y_it = x'_it * θ + α_{g_i t} + η_i + v_it,可通过组内去均值转换后应用GFE方法。 - 扩展2(组别异质系数):模型 y_it = x'_it * θ_{g_i} + α_{g_i t} + v_it,允许协变量的影响系数也随组别不同而变化。 - 非线性模型:研究简要讨论了将GFE思想推广至一般M-估计框架(如离散选择模型)的可能性,但指出其统计性质分析超出了本文范围。
由于对 n 个单位进行 G 分组的所有可能组合数量巨大,无法进行穷举搜索。研究者借鉴聚类文献中的方法,开发了高效的迭代计算算法。
算法1(迭代算法): 1. 初始化:给定 (θ, α) 的初始值。 2. 分配步:固定当前的 (θ, α),将每个个体 i 分配到使其残差平方和 Σ_t (y_it - x'_it*θ - α_{gt})^2 最小的组 g。 3. 更新步:固定当前的分组分配,通过包含组别与时间虚拟变量交互项的OLS回归,更新估计 θ 和 α。 4. 迭代:重复步骤2和3直至数值收敛。 该算法目标函数值在迭代中非增,收敛速度快,但解可能依赖于初始值。实践中可通过随机选取多个初始值并选择目标函数最小的解来提高找到全局最优解的可能性。
算法2(基于K-means的改进算法): 为处理更大规模的问题,研究者利用了GFE估计量与著名的K-means聚类算法之间的紧密联系,并利用了聚类文献的最新进展,开发了更高效的算法(在补充材料中详述)。作者还提供了可计算GFE估计量的Stata代码(包含Fortran可执行程序)。
本研究的主要理论贡献在于严格推导了GFE估计量在 n 和 T 同时趋向无穷大时的统计性质。
渐进设定:考虑 n 和 T 以某种速率共同增长。这与仅 n 增长的传统面板渐进理论不同。
关键假设: 1. 基本条件:参数空间紧致;协变量和误差项具有有限矩;允许一定的序列相关和截面相关性;协变量在组内存在足够的时变和截面变异(“相关条件”)。 2. 组别分离条件:要求不同组的时变路径 α_{gt} 在渐进意义上是可以区分的(即 lim (1/T) Σ_t (α_{gt} - α_{g̃t})^2 > 0)。这是估计能够识别不同组的关键。 3. 误差项性质:为获得更快的收敛速率,假设误差项 v_it 具有指数衰减的混合依赖性和次指数尾部分布。这允许研究者使用指数不等式来界定误分类概率。
主要定理: - 定理1(一致性):在基本条件下,当 n, T → ∞,GFE估计量 θ_hat 依概率收敛于真实值 θ^0,且估计的组别效应 α_{g_i_hat t} 在均方意义下收敛于真实效应 α_{g_i^0 t}。 - 定理2(渐进等价性):在组别分离等更强的条件下,GFE估计量 (θ_hat, α_hat) 与一个不可行的、已知真实分组的OLS估计量 (θ_tilde, α_tilde) 是渐进等价的。这意味着,当 T 足够大时,估计分组成员身份这一事实不会影响估计量的渐进分布。 - 具体而言,只要 n / T^ν → 0(对某个 ν > 0),即 T 的增长速度不必快于 n 的多项式速度,该等价性就成立。这与包含单位特异性固定效应的模型形成对比。 - 推论1(渐进分布):在上述条件下,θ_hat 是 sqrt(nT)-相合的且渐进正态;α_{gt} 是 sqrt(n)-相合的且渐进正态。分组成员指标 g_i_hat 是一致估计量。
与交互固定效应模型的比较: 论文指出,模型(1)具有因子分析结构。但与Bai(2009)的“交互固定效应”模型相比,GFE估计量在相对短的面板且数据具有分组结构时,因其简洁性可能提供更有用的替代方案。理论表明,交互固定效应估计量在 n/T → 常数 时通常存在 O(1/T) 的偏差,且时变因子的 sqrt(n)-相合性要求 n/T^2 → 0。而GFE在 n/T^ν → 0 (ν>0) 的条件下即可实现无偏的渐进正态性,这使其更适用于 T 中等长度的面板。
固定T渐进分析:虽然当 T 固定、n → ∞ 时,GFE估计量可能收敛于一个与真实值不同的“伪真实值”,但研究者认为,使用一个固定 T 一致的方差估计量(文中提出了基于解析公式或Bootstrap的估计量)与GFE估计量结合,可以为总体参数提供更可靠的推断。
蒙特卡洛模拟: 研究者在模拟环境中评估了GFE的有限样本性能,其设计校准了后续实证应用的数据集(n=90, T=7)。主要发现包括: - 组别误分类概率较小(G=3 和 G=5 时低于10%)。 - 公共参数的偏差适中。 - 在具有分组异质性的模拟数据上,与交互固定效应估计量相比,后者偏差更大且未观测异质性成分估计更不精确。 - 使用固定 T 方差估计量进行推断,对总体参数更可靠。
研究者将GFE方法应用于Acemoglu等人(2008)关于收入与民主关系的经典研究,使用1970-2000年国家面板数据。
模型设定:估计动态模型 民主_it = θ_1 * 民主_{i,t-1} + θ_2 * 对数人均GDP_{i,t-1} + α_{g_i t} + v_it,其中民主由自由之家指标衡量。
估计结果: 1. 系数估计:随着分组数 G 增加,收入 (θ_2) 和滞后民主 (θ_1) 的系数均下降,尤其是滞后民主系数下降显著。累积收入效应 θ_2/(1-θ_1) 从OLS的0.25降至 G=5 时的0.10,之后基本稳定。这表明未观测的国家异质性与滞后民主正相关,导致OLS向上偏误。在同时包含时变分组效应和时不变国家固定效应的扩展模型中,收入效应在统计上不显著为零。 2. 分组模式:图2展示了 G=4 时的估计结果。 - 组1(高民主组):包含美国、加拿大、西欧大部、日本、澳大利亚、印度等,民主水平高且稳定。 - 组2(低民主组):包含北非、中非大部、中国、伊朗等,民主水平低且稳定。组1和组2(共59国)的时变路径近似平行,与加法固定效应模型一致。 - 组3(早期转型组):包含拉美大部、希腊、西班牙、葡萄牙、泰国、韩国等,在样本早期(70-90年代)经历了明显的民主化提升。 - 组4(晚期转型组):包含西非、南非部分、智利、罗马尼亚、菲律宾等,在样本后期(85-2000年)实现民主转型。 分组显示出显著的地理相关性,但这是估计的结果而非模型的假设。
T 的增加而迅速提升,从而避免了短面板中严重的伴随参数问题。这为使用聚类方法进行面板数据分析提供了正式的理论依据。T 较短(如7期)的设定下,GFE能够较准确地恢复分组,参数估计偏差可控,并且采用固定 T 方差估计能够改进推断。这为实证应用提供了信心。结论: 本研究成功提出并发展了一种用于面板数据的“分组固定效应”建模与估计框架。该框架允许未观测异质性以时变的、组内共享的模式存在,且组别成员身份无需事先设定或与协变量有参数化关系。理论证明,在组别分离的条件下,GFE估计量具有良好的大样本性质,且在时间维度增长时能快速准确地进行分类。实证应用展示了该方法在揭示经济政治现象中潜在分组动态方面的强大能力。
科学价值: 1. 方法论贡献:在计量经济学面板数据方法工具箱中增添了一个新的、灵活的选项,弥合了固定效应模型(完全灵活但参数多、短面板有偏)与有限混合模型(参数简洁但需设定混合概率与协变量的关系)之间的空白。它也与交互固定效应模型形成互补,在数据具有离散分组结构时可能更具优势。 2. 理论贡献:首次在面板数据背景下,为K-means类型聚类估计量在 n 和 T 联合渐进下的 consistency 和 asymptotic normality 提供了严格的理论条件。 3. 应用价值:为研究社会互动、风险分担、空间依赖(估计权重矩阵)、收敛俱乐部、政策评估(放松平行趋势假设)以及如本文所示的跨国政治经济动态等众多领域提供了新的分析工具。
G 的信息准则研究、分组数误设影响的分析、更详细的模拟实验、额外的实证结果(如包含国家固定效应的扩展、对分组决定因素的探索性分析)以及算法细节。这些内容极大地丰富了论文的主体部分。