具有潜在群组结构和截面依赖性的非平稳面板模型

分享自：
具有潜在群组结构和截面依赖性的非平稳面板模型

期刊:journal of econometricsDOI:10.1016/j.jeconom.2020.05.003
关于非平稳面板模型中潜在组结构与横截面依赖性的研究报告
一、 主要作者、机构及发表信息
本项研究由四位作者合作完成。第一作者为 Enxin Huang，隶属于 Antai College of Economics and Management, Shanghai Jiao Tong University, China。第二作者为 Sainan Jin，隶属于 School of Economics, Singapore Management University, Singapore。第三作者为 Peter C.B. Phillips，其机构横跨 Yale University, University of Auckland, University of Southampton & Singapore Management University, United States of America。通讯作者为 Liangjun Su，其机构为 School of Economics and Management, Tsinghua University, China。这项研究成果以论文形式《Nonstationary panel models with latent group structures and cross-section dependence》发表于《Journal of Econometrics》期刊，第221卷（2021年），第198至222页。论文于2020年5月19日被接受，并于2020年8月4日在线发布。
二、 学术背景与研究目标
本项研究的核心领域是计量经济学，特别是针对非平稳面板数据（Nonstationary Panel Models）的高级建模与推断方法研究。在实证经济学分析中，面板数据模型被广泛应用以考察长期经济关系。然而，传统的非平稳面板模型通常建立在两个可能不符合现实的简化假设之上：其一，假设所有个体的长期参数（如协整系数）是齐性的；其二，假设不同横截面单位之间的误差项是相互独立的。
现实世界的数据常常违背这两个假设。一方面，个体之间存在未观测到的异质性（unobserved parameter heterogeneity）。例如，在研究“收敛俱乐部”（convergence clubs）现象时，不同发展水平的国家可能遵循不同的长期增长路径，形成若干内在同质、组间异质的子群体（组），但这种组别归属通常是未知的。另一方面，全球化、技术溢出等因素导致经济体之间存在广泛的相互联系，使误差项产生横截面依赖性（cross-section dependence）。若忽略这两种特征，将导致参数估计有偏甚至非一致，严重影响传统方法推断结果的可靠性。
因此，本研究旨在开发一个能够同时处理潜在组结构（latent group structures）与横截面依赖性的创新框架，以实现对非平稳面板数据模型的高效（收敛速度快）估计与有效推断。具体目标包括：1）提出一种能够识别未知个体分组并估计组特定长期关系的新方法；2）允许模型包含未观测到的平稳与非平稳共同因子，以捕捉复杂的横截面依赖模式；3）建立新估计量的渐近理论，并设计偏误校正程序，使其能进行标准统计推断；4）通过蒙特卡洛模拟验证方法的有限样本表现，并将其应用于一个重要的实证问题，以展示其价值。
三、 研究的详细工作流程与方法
本研究是方法论导向的理论与应用研究，其工作流程可概括为模型设定、方法开发、理论证明、模拟验证与实证应用五个核心环节，不涉及传统意义上的实验对象与实验操作。
第一环节：模型设定与识别问题阐述。 研究者提出了一个包含潜在组结构和因子结构的非平稳面板协整模型。模型基本设定如下：对于个体 (i=1,…,n)，时间 (t=1,…,T)，被解释变量 (y{it}) 与解释变量之间的关系为： (y{it} = \beta{1,i}^{0’} x{1,it} + \beta{2,i}^{0’} x{2,it} + e{it}) 其中，(x{1,it}) 为非平稳（I(1)）回归元，其系数 (\beta{1,i}^{0}) 代表长期协整关系；(x{2,it}) 为平稳（I(0)）回归元，其系数 (\beta{2,i}^{0}) 完全异质，捕捉短期动态。误差项 (e{it}) 具有横截面依赖性，由未观测共同因子驱动：(e_{it} = \lambda_i^{0’} ft^0 + u{it})。共同因子 (f_t^0) 进一步包含 (r1) 维非平稳因子 (f{1t}^0) (I(1)) 和 (r2) 维平稳因子 (f{2t}^0) (I(0))，对应的因子载荷为 (\lambdai^0 = (\lambda{1i}^{0’}, \lambda_{2i}^{0’})’)。
本研究的关键创新在于对长期系数 (\beta_{1,i}^{0}) 施加了潜在组结构：所有个体被划分为 (K) 个未知的组（(G_1^0, …, GK^0)），组内个体的 (\beta{1,i}^{0}) 相同，记为 (\alphak^0)，而组间则不同。模型识别面临三大挑战：1) 若忽略非平稳共同因子 (f{1t}^0)，会导致伪回归问题，使估计量不一致；2) 在未知分组和存在共同因子的情况下，如何一致地估计组特定参数并恢复个体组别归属；3) 内生性与序列相关性会引致估计量的渐近偏误，需要校正才能进行有效推断。
第二环节：估计方法开发——惩罚主成分法。 为解决上述挑战，作者提出了一种惩罚主成分（Penalized Principal Component, PPC）方法，这是一种在惩罚回归与主成分分析（PCA）之间进行迭代的程序。该方法分三步进行：
第一步：估计非平稳部分。 构造一个包含惩罚项的PPC目标函数，联合估计个体参数 ((\beta{1,i}, \beta{2,i}))、非平稳因子 ((f1)) 及其载荷 ((\lambda{1i}))，同时通过分类Lasso（Classifier-Lasso, C-Lasso）技术识别个体的组别归属。目标函数为： (Q_{nt}^{\lambda, K}(\beta, \alpha, f1) = Q{nt}(\beta_1, \beta_2, f1) + \lambda \sum{i=1}^{n} \min{1 \leq k \leq K} |\beta{1,i} - \alphak|)， 其中第一项是控制非平稳因子后的最小二乘目标，第二项是组间差异性惩罚项，(\lambda) 为调节参数。通过迭代求解（2.9）和（2.10）式（即更新给定因子下的个体参数估计，以及给定残差下的因子主成分估计），最终得到C-Lasso估计量 ((\hat{\beta}{1,i}, \hat{\alpha}_k, \hat{f}1))，并根据 (\hat{\beta}{1,i} = \hat{\alpha}_k) 的规则将个体 (i) 划分到组 (\hat{G}k)。研究者指出，忽略平稳因子 (f{2t}^0) 不会影响 (\beta_{1,i}) 估计量的一致性。
第二步：估计平稳部分。 利用第一步得到的残差 (\hat{r}{it} = y{it} - \hat{\beta}{1,i}’ x{1,it} - \hat{\lambda}{1i}‘\hat{f}{1t})，其中包含了平稳因子、平稳回归元及误差信息。对此残差序列应用标准的交互固定效应（Interactive Fixed Effects, IFE）或因子模型方法（如Bai (2009)的PCA），通过求解（2.14）和（2.15）式，估计出平稳因子 (\hat{f}2)、其载荷 (\hat{\lambda}{2i}) 以及平稳回归元系数的更新估计 (\check{\beta}_{2,i})。
第三步：偏误校正。 由于内生性（非平稳回归元与误差项/因子相关）和序列相关性，第一步得到的组特定参数估计量 (\hat{\alpha}_k) 虽然具有一致性，但存在非零的渐近偏误，影响推断。研究者提出了三种偏误校正程序来获得零中心的渐近分布：
偏误校正后Lasso估计量：基于第一步的估计结果，直接估计并减去渐近偏误项（包含来自与非平稳因子相关以及与平稳因子相关的两部分偏误）。
完全修正后Lasso估计量：借鉴Phillips和Hansen (1990)的完全修正OLS（FM-OLS）思想，对因变量和估计量的协方差矩阵进行修正，以同时处理内生性和序列相关偏误，通过迭代求解（3.8）-（3.10）式获得。
连续更新Lasso估计量：在完全修正的基础上，引入连续更新机制，在每次迭代中同时更新分组归属、非平稳和平稳因子成分的估计，形成CUP-Lasso估计量。
此外，对于实践中组数 (K)、非平稳因子数 (r_1)、平稳因子数 (r_2) 未知的情况，研究者还提出了基于信息准则（Information Criteria）的确定方法。
第四环节：理论性质证明（渐近分析）。 研究者建立了一套完整的渐近理论来支撑其方法。在满足一系列关于数据生成过程（线性过程假设、因子结构假设、识别条件、分组可分离性、调节参数速率条件等）的假设下，他们证明了： 1. 初步收敛速率：证明了PPC估计量 (\hat{\beta}_{1,i}, \hat{f}_1) 的初步一致性及其收敛速率（定理3.1，3.2）。 2. 分类一致性：证明了所提出的方法能够以概率趋近于1正确地将所有个体分类到其真实的组中（定理3.3），这是后续得到“oracle性质”（即组特定估计量表现得如同已知真实分组一样）的关键前提。 3. 估计量的Bahadur表示与渐近分布：给出了未校正估计量 (\hat{\alpha}k) 的渐近线性表达式，明确了其渐近偏误 (b{nt})（来源于两部分）和方差 (v_{nt}) 的构成（定理3.4）。 4. 偏误校正估计量的混合正态极限：证明了经过上述三种偏误校正程序得到的估计量均具有 (\sqrt{NT}) 的收敛速率，并且其极限分布为混合正态（Mixed Normal）（定理3.5）。这一结果为构建标准的t检验、Wald检验等推断工具奠定了理论基础。 5. 信息准则的一致性：证明了所提出的信息准则能够以概率趋近于1正确选择组数和因子数。
第五环节：蒙特卡洛模拟。 研究在第4节进行了大量的蒙特卡洛模拟实验，以评估所提出方法在有限样本（不同的 (N) 和 (T)）下的表现。模拟内容可能包括：参数估计的偏差和均方误差、分类的准确率、因子数及组数选择的正确率、偏误校正后估计量覆盖率的有效性等。论文指出模拟结果显示了良好的有限样本性能，但具体数据需参考原文第4节及在线附录。
第六环节：实证应用——国际研发（R&D）溢出效应研究。 为展示方法的应用价值，研究者将新方法应用于分析OECD国家1971-2004年间的国际研发溢出效应，这是一个经典的检验技术扩散与增长收敛假设的议题。他们沿用Coe和Helpman (1995)的基本设定，以全要素生产率（TFP）作为被解释变量，国内研发资本存量和国外研发资本存量作为核心解释变量。 与传统同质面板模型不同，本研究允许长期溢出效应参数（国外研发资本存量的系数）存在潜在的组结构，并利用因子结构控制未观测的全球技术冲击等横截面依赖性。应用本文方法，他们得到了两个关键发现： 1. 总体正溢出：在控制了未观测的共同因子后，全样本显示出显著的正向技术溢出效应，支持技术增长存在整体收敛行为的观点。 2. 异质性溢出模式与分组：组特定估计揭示了国家间异质的溢出模式，识别出两种并存的R&D溢出效应——正向技术扩散效应和负向市场竞争效应。这与Bloom等（2013）基于企业层面数据的发现相呼应。根据估计出的组结构，他们将OECD国家分为三组： * 收敛组：技术扩散效应占主导，呈现正向R&D溢出，支持增长收敛假说。 * 发散组：市场竞争效应占主导，总体R&D溢出为负，技术增长依赖国内创新，呈现发散行为。 * 平衡组：两种效应相对平衡。 这一发现为解释“增长收敛之谜”提供了新的视角：R&D溢出效应的异质性是导致不同国家群组出现收敛或发散动态的重要原因。
四、 主要研究结果及其逻辑关联
研究的核心结果环环相扣，从方法论到理论再到应用，构成了一个完整的逻辑链条。
方法可行性结果：PPC算法在理论上被证明能够同时一致地估计非平稳参数、潜在分组和共同因子。模拟研究为此提供了有限样本下的经验支持，表明该方法在实际可得的样本量下是有效的。
统计推断基础结果：理论分析精确刻画了未校正估计量的渐近偏误来源（与非平稳因子相关的偏误 (b{nt,1}) 和与平稳因子相关的偏误 (b{nt,2})）。这直接引导了后续三种偏误校正程序的设计。校正后估计量具有混合正态极限这一结果，是最终能够进行可靠统计推断的根本保障。
模型选择一致性结果：信息准则能够一致地确定未知的组数和因子数，这解决了该方法在实际应用中的一个关键前置问题，使其成为一个完整的、可操作的建模流程。
实证应用发现结果：在国际R&D溢出的应用案例中，方法的实施不仅验证了技术溢出的总体存在性，更重要的是发现了异质性组结构的存在，并将国家划分为具有不同溢出机制的群组。这一实证结果直接回应了研究背景中提到的“参数异质性”和“横截面依赖”问题，展示了新方法相较于传统同质模型或忽略横截面依赖的模型，能够揭示更丰富、更符合经济直觉的经验规律。发现“负向市场竞争效应”与“正向技术扩散效应”并存，并以此解释收敛与发散的分化，是本研究实证部分最重要的贡献。
五、 研究结论与价值
本研究的主要结论是，成功开发并理论验证了一套适用于同时包含潜在组结构和横截面依赖性的非平稳面板数据的完整建模与推断框架。该框架通过惩罚主成分（PPC）方法实现了对组特定长期关系、未知分组以及未观测共同因子的联合估计，并通过创新的偏误校正程序确保了估计量具有适于推断的渐近性质。
其科学价值在于：1）理论贡献：将因子模型与潜在组结构模型有机结合，扩展了非平稳面板模型的理论边界，为存在复杂异质性和依赖性的面板数据提供了新的分析工具；建立了Lasso型估计量在包含非平稳变量、协整关系及共同因子等复杂设定下的渐近理论。2）方法论贡献：提出的PPC方法、C-Lasso分类技术以及针对多源偏误的校正程序，为相关领域的研究者提供了实用的技术方案。3）应用价值：方法具有广泛的适用性，可应用于经济增长收敛俱乐部、跨国技术扩散、金融市场的联动与异质性等多个经济学和金融学实证研究领域。R&D溢出的应用实例深刻展示了该方法如何通过数据驱动的方式揭示潜在的经济结构，对理解全球技术扩散的动态和制定差异化政策具有启示意义。
六、 研究亮点
问题前沿性与综合性：同时攻克了非平稳面板分析中的两大难题——未观测异质性（以潜在组结构形式）和横截面依赖性（以因子结构形式），提出的框架更为一般和现实。
方法创新性：提出的惩罚主成分（PPC）方法巧妙地整合了主成分分析（处理因子）和分类Lasso（处理分组），并通过多步骤迭代和偏误校正，形成了一个稳健的估计与推断流程。
理论完备性：不仅证明了估计和分类的一致性，还深入分析了渐近偏误的复杂构成，并给出了有效的校正方案，最终得到了便于进行标准推断的混合正态极限分布，理论体系严密。
应用启发性：实证研究不仅是一个方法演示，更得出了具有实质经济学意义的发现（异质性R&D溢出机制与增长收敛/发散分组），超越了原有文献的结论，展示了新方法的强大解释力。
七、 其他有价值内容
论文的在线附录（Online Supplement）包含了主要定理的详细证明过程以及一些额外的讨论和模拟结果，这对于希望深入理解方法理论细节或进行后续方法拓展的研究者具有重要参考价值。此外，文中对“为何基于水平方程而非差分方程进行估计”的讨论（Remark 2.1 & 2.2）澄清了一个重要的方法论选择，强调了在非平稳面板中利用“超一致性”优势的重要性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问