本文旨在向中国学术界介绍由Wuyi Wang与Liangjun Su共同完成,并于2020年5月8日在线发表在《Journal of Econometrics》(第220卷,2021年,272-295页)上的研究论文《Identifying Latent Group Structures in Nonlinear Panels》。本研究提出了一种创新的方法论,用于识别非线性面板数据模型中未知的潜在群体结构,在计量经济学面板数据分析领域具有重要理论贡献与应用价值。
本研究的通讯作者为Liangjun Su,其工作单位包括清华大学经济管理学院和新加坡管理大学经济学院。第一作者Wuyi Wang任职于暨南大学经济社会研究院。该项研究成果发表于计量经济学领域的顶级期刊之一《Journal of Econometrics》。作者在文中特别感谢了会议与研讨会的参与者以及多位匿名审稿人的建设性意见,并声明研究得到了新加坡教育部学术研究基金与中国“111计划”等项目的资助。
本研究属于计量经济学中面板数据建模的核心领域。传统的面板数据分析通常假设所有个体的回归系数(斜率)是同质的,以充分利用截面平均的信息并简化渐近理论的推导。然而,大量实证研究表明,这种同质性假设经常被拒绝。若完全允许个体间完全异质性,则会丧失使用面板数据的优势,甚至导致估计不可行。因此,越来越多的研究者关注一种中间情形,即“面板结构模型”(Panel Structure Model)。在此模型中,部分回归系数在个体间存在异质性,但这种异质性表现为一种潜在的群体结构:系数在群体内部是同质的,在群体间是异质的,并且群体的数量、构成以及个体的群体归属都是未知的,需要从数据中识别。
这种模型具有广泛的应用背景。例如,在宏观经济学中用于研究不同国家形成的“收敛俱乐部”(convergence clubs);在金融学中分析同一行业板块股票的相似行为;在劳动经济学中基于种族差异研究收入动态等。识别这种潜在群体结构,有助于设计针对特定群体的政策或商业策略,与统计学中的“亚组分析”(subgroup analysis)紧密相关。
识别未知的潜在群体结构是一个计算上具有挑战性的问题,因为穷举所有可能的分组组合是不可行的(贝尔数)。现有数据驱动的方法主要包括基于K-means聚类的算法和基于分类器-套索(Classifier-Lasso, C-Lasso)的方法。这些方法虽然有效,但也存在一些局限:K-means算法是NP难问题,计算负担重;C-Lasso方法尽管通过转化为一系列凸问题缓解了计算压力,但仍需选择多个调谐参数,且可能留下部分个体未被分类。
近期,Ke等学者(KLZ, 2016)将时间序列结构变化文献中的“序贯二元分割算法”(Sequential Binary Segmentation Algorithm, SBSA)引入具有交互固定效应的线性面板模型,用于识别未观测到的群体结构。然而,KLZ的方法仅针对标量系数进行分类,并且其设定与一般计量经济学中关注整个参数向量异质性的框架有所不同。
基于Bai (1997) 和 KLZ (2016) 的工作,本研究旨在解决一个更一般化的问题:如何将序贯二元分割算法扩展应用于识别非线性面板数据模型中参数向量的潜在群体结构。 具体目标包括: 1. 提出一种能够有效识别非线性面板中潜在群体结构的算法。 2. 证明该算法能以趋近于1的概率正确识别真实的群体结构。 3. 证明基于识别后群体的参数估计量具有“神谕有效性”(oracle efficiency),即其表现如同已知真实群体结构一样好。 4. 开发一种基于信息准则的方法,以一致地估计未知的群体数量。 5. 提出一种基于谱分解的改进算法,建立面板结构模型与网络文献中“社区检测”(community detection)问题的联系,以提升有限样本表现。 6. 通过模拟实验验证方法的有限样本性能,并将其应用于实际经济问题分析。
本研究的主要创新在于提出了两种算法(SBSA 1 和改进的基于特征向量的SBSA)来识别群体结构,并配套了模型参数估计与群体数量选择方法。研究流程可分为以下几个核心环节:
研究模型: 研究者考虑一个包含潜在群体结构的广义面板数据模型: y_it = g(x_it, ε_it; β_i, μ_i, θ) 其中,g(·) 是广义回归函数;β_i 是 p×1 维的关注参数向量,其真实值 β_i^0 呈现群体模式,即 β_i^0 = α_k^0 当且仅当个体 i 属于第 k 个真实群体 G_k^0;μ_i 是 r×1 维的讨厌参数向量(如个体固定效应);θ 是 q×1 维的共同参数向量。真实群体数量 K^0 和群体结构 G^0 = {G_1^0, ..., G_K^0^0} 均未知。
研究对象的处理: 在没有群体结构信息的情况下,首先通过最小化负对数似然函数(对于拟最大似然估计QMLE)来获得参数的初步无约束一致估计量。具体地,定义轮廓对数似然函数 q_nt(θ),通过优化得到共同参数 θ 的估计 θ̃,进而得到每个个体 i 的参数向量估计 γ̃_i = (β̃_i^⊤, μ̃_i^⊤)^⊤。其中,β̃ = (β̃_1, ..., β̃_n)^⊤ 是 n×p 的矩阵,包含了所有个体 β_i 的初步估计。本研究涵盖了线性面板、删失面板(censored panel)和二元选择面板等多种具体模型作为特例。
理论支撑: 在满足一定的正则条件下(如数据平稳、混合相依、参数空间紧、海塞矩阵正定等),论文证明了初步估计量 θ̃ 和 γ̃_i 的一致性及其收敛速率(定理3.1)。例如,∥β̃_i - β_i^0∥ = O_p((p/T)^{1/2})。这是后续群体识别算法的前提。
算法核心思想: 将群体识别问题转化为有序估计序列中的“断点检测”问题。由于参数 β_i 是向量,没有自然的排序。研究者的关键思路是:对 β̃ 矩阵的每一列(即每个参数分量 j)单独排序,然后在每一轮分割中选择在该轮待考察样本段内样本方差最大的那个参数分量作为“分割维度”,在其排序后的序列上应用二元分割来寻找最优断点。
详细工作流程: 1. 排序: 对于每个参数维度 j=1,...,p,将 β̃_{·j}(n 个个体在第 j 个参数上的估计值)按升序排列,得到顺序统计量及其对应的个体索引排列 {π_j(1), ..., π_j(n)}。 2. 初始分割(K=2): * 对于每个 j,计算整个序列 s_{1,n}(j) 的归一化样本方差 v̂_{1,n}(j)。 * 选择方差最大的维度 ȷ̂_1 = argmax_j v̂_{1,n}(j)。 * 在维度 ȷ̂_1 的排序序列上,寻找一个断点 m,使得将序列分为 [1, m] 和 [m+1, n] 两段后,两段内部的加权方差之和 ŝ_{1,n}(ȷ̂_1, m) 最小。这个 m 就是估计的第一个断点 m̂_1。 * 由此得到两个初始群体估计:Ĝ_1(2) 和 Ĝ_2(2)。 3. 序贯分割(K≥3): * 假设已检测到 k-2 个断点,将样本分成 k-1 个段(即 k-1 个群体雏形)。 * 在每个现有段 Ĝ_l(k-1) 内,计算各维度的方差,并加总所有段的方差,选择使总方差最大的维度 ȷ̂_{k-1} 作为本轮分割维度。 * 在每个现有段内部,尝试寻找一个新的断点 m,使得分割该段后,新形成的两个子段内部方差之和与该段外部方差之和最小。记录下每个段的最优断点位置及对应的最小方差值 ŝ_{l-1}(k)。 * 选择使 ŝ_{l-1}(k) 最小的那个段 l̂ 进行实际分割,引入一个新的断点。重新标记所有断点和群体。 * 重复此过程,直到达到预设的最大群体数 K_max。
群体数量确定: 当真实群体数 K^0 未知时,需要从 {1, ..., K_max} 中选择。研究者提出一个BIC类型的信息准则: IC1(k) = 2 L_nt(β̂(k), μ̂(k), θ̂(k)) + p k · ρ_nt 其中,L_nt 是在给定估计群体结构 Ĝ(k) 下约束模型的对数似然值,p k 是待估群体参数的总维度,ρ_nt 是一个趋于0的调整项。选择使 IC1(k) 最小的 k̂ 作为群体数量的估计。
参数再估计: 一旦确定了估计的群体数量 k̂ 和结构 Ĝ,就可以求解约束最大化问题,得到群体特定参数 {α̂_1, ..., α̂_k̂} 和共同参数 θ̂ 的“后分类估计量”。这个过程类似于标准的轮廓最大似然估计。
动机与联系: 为了提升有限样本性能,研究者提出了第二种算法。他们观察到,矩阵 D_n = n^{-1} β^0 β^{0⊤} 的谱分解(spectral decomposition)与“随机分块模型”(Stochastic Block Model, SBM)存在深刻联系。在SBM中,网络的社区结构信息包含在邻接矩阵的头部几个特征向量中。类似地,在面板结构模型中,个体的群体成员信息蕴含在 D_n 的头部几个(等于 α^0 矩阵的秩)非零特征值对应的特征向量中。
算法流程: 1. 构造矩阵: 使用初步估计 β̃ 构造样本矩阵 D̃_n = n^{-1} β̃ β̃^{⊤}。 2. 谱分解: 对 D̃_n 进行特征分解,得到其特征值 {μ̃_{ℓ,n}} 和对应的特征向量矩阵 Ũ_n。 3. 选择特征向量: 选取前 K_n 个最大特征值对应的特征向量 Ũ_{1,n}(一个 n × K_n 的矩阵),其中 K_n 通过一个阈值(如 0.1/log n)确定,以确保只选取那些对应总体非零特征值的样本特征向量。理论证明,在适当条件下,K_n 以概率趋近于1等于真实非零特征值个数 K^*(≤ K^0)。 4. 在特征向量上应用SBSA: 将 Ũ_{1,n} 的每一列视为一个新的“坐标”。由于特征向量的行(即每个个体对应的 K_n 维向量)包含了其群体信息,且这些向量比原始的 β̃_i 更能清晰地区分群体,因此可以对 Ũ_{1,n} 的每一列排序,并应用与SBSA 1完全相同的二元分割流程来识别群体结构。后续的群体数量选择和参数估计步骤与SBSA 1一致。
本研究通过严格的理论推导和数值模拟,系统地验证了所提出方法的有效性。
β̃_i 是 β_i^0 的良好近似。K^0 的情况下,证明SBSA 1算法能以概率趋近于1正确识别出所有个体的群体归属 (P(Ĝ(K^0) = G^0) → 1)。这要求不同群体的参数有足够的分隔(Assumption A2(i)),并且 n 和 T 满足一定的增长条件(如 p^{3/2} n^{1/2} (ln n)^9 / T → 0)。P(k̂ = K^0) → 1)。α̂_k 和 θ̂ 是“神谕有效”的。它们的联合渐近分布与已知真实群体结构下得到的“神谕估计量”相同。该分布通常包含一个由于固定效应 μ_i 的估计引起的偏误项(在非线性或动态模型中)和一个方差项。这为后续统计推断(如构造置信区间)奠定了理论基础。Ũ_{1,n} 以 O_p((p/T)^{1/2} (ln T)^3) 的速率一致收敛于(经过一个正交旋转后的)总体特征向量 U_{1,n}。这保证了基于特征向量的SBSA算法同样能有效提取群体信息。论文通过蒙特卡洛模拟评估了所提出方法在有限样本下的性能,并与K-means、C-Lasso等方法进行了比较。 * 数据生成过程: 考虑了静态线性面板模型和动态面板模型(包含滞后因变量)。设置了不同的群体数(K^0=2, 3)、样本量(n=100, 200;T=20, 50)和参数分隔度。 * 评估指标: 主要包括群体数量的正确选择比例、群体成员分类的正确率、以及群体参数估计的均方误差。 * 主要发现: 1. 群体数量选择: 提出的信息准则(IC1)在大多数设定下都能非常准确地选择真实群体数,性能优于或相当于对比方法。 2. 分类准确性: SBSA 1和基于特征向量的SBSA方法都具有很高的分类正确率,尤其是在 T 较大或群体间分隔明显时。基于特征向量的方法在 p 较大或原始参数存在线性依赖时,表现通常优于直接在 β̃ 上操作的SBSA 1。 3. 参数估计效率: 后分类估计量的均方误差与神谕估计量非常接近,验证了其神谕有效性。 4. 计算效率: SBSA算法的计算速度远快于K-means和需要迭代求解的C-Lasso方法,这是一个显著优势。
研究者将所提出的方法应用于分析荷兰家庭面板调查数据(1993-2015年),研究家庭投资组合选择如何受其财务状况和其他特征的影响。 * 研究问题: 探究金融资产、非资本收入、退休状态等因素对个人“安全资产比率”(safe asset ratio,定义为安全资产占总金融资产的比例,是一个在0和1处截尾的变量)的影响。 * 模型: 使用一个删失面板模型,其中金融资产和非资本收入的系数被允许存在异质性(即具有潜在群体结构),而其他变量(如退休状态、年龄、家庭规模等)的系数被设定为同质。 * 分析过程: 应用基于特征向量的SBSA方法对数据进行分组。 * 主要发现: 算法识别出了三个潜在的群体。 1. 群体1: 当非资本收入增加时,会降低安全资产比率(即转向风险更高的投资)。 2. 群体2和群体3: 当非资本收入增加时,会提高安全资产比率(即更偏好安全资产)。 3. 所有群体: 金融资产的增加对所有群体的安全资产比率都有负向影响,但影响的程度在群体2与其他群体之间存在显著差异。 * 结果解读: 这些发现与一般观察相符:人群中存在不同的风险偏好类型。有些人(如群体1)在收入增加时更愿意承担风险,而另一些人(如群体2和3)则变得更加风险厌恶。研究为理解家庭金融行为的异质性提供了新的数据驱动的证据。
本研究的核心结论是,成功地将序贯二元分割算法推广到了非线性面板数据模型的参数向量分类问题中,并提出了一种稳健、计算高效且理论性质良好的识别潜在群体结构的框架。
科学价值:
应用价值:
θ,这使得模型设定更加灵活,能够同时容纳经济理论建议的同质系数和需要探索异质性的系数。T 较小时,部分个体的初步估计可能表现“异常”,如果将这些异常估计纳入算法可能会恶化分类效果。基于特征向量的方法在一定程度上能缓解这个问题,因为它通过降维和提取主要信号,增强了算法的稳健性。Wang和Su的这项研究是面板数据计量经济学领域一项重要的方法论贡献。它不仅提出了一种新颖、高效、理论扎实的潜在群体结构识别方法,而且通过建立与网络科学的联系,开辟了新的研究思路,对于推动基于异质性分析的实证研究具有显著的启示意义和应用前景。