关于结构分组近似因子模型的研究

分享自：
关于结构分组近似因子模型的研究

期刊:Econometric ReviewsDOI:10.1080/07474938.2025.2543293
Yundong Tu 和 Baiqing Wang 于2026年在《Econometric Reviews》期刊上发表了题为“On structurally grouped approximate factor models”的研究论文。两位作者均来自北京大学光华管理学院。该论文提出并研究了一种具有结构分组的近似因子模型，旨在解决传统高维近似因子模型中参数过多、预测性能可能不佳的问题。
研究的学术背景
该研究属于计量经济学和金融时间序列分析领域，具体关注因子模型的估计与应用。过去二十年来，因子分析被广泛应用于处理大量时间序列数据，它通过提取少数几个共同因子来捕捉数据中的共同波动，从而在高维数据下保持模型的可操作性。标准的近似因子模型（approximate factor model）允许特质性误差项之间存在相关性，并通过主成分分析（Principal Component Analysis， PCA）等方法在横截面维度趋于无穷时一致地估计（至多一个旋转）共同因子。
然而，标准的近似因子模型面临一个“双刃剑”问题。一方面，巨大的横截面维度使得纳入更多数据成为可能，有助于在“大数据”时代一致地估计因子。另一方面，它也大幅增加了系统中未知参数的数量，因为每个横截面个体都对应一个特定的、异质性的因子载荷向量。即使载荷估计量以1/√T的速度收敛，当横截面维度N与时间维度T相当时，过多的参数仍可能导致较差的预测表现。
为了降低参数的维度，需要在载荷向量中引入某种稀疏性结构。先前的研究，如Tsai和Tsay（2010）以及Xiang, Guo和Li（2023），采用了分组因子模型，假定同一行业或发展水平的个体具有相同的载荷。然而，这些研究中的分组往往是事先根据经济理论或经验指定的，而非由数据驱动。在实际应用中，关于个体应如何分组的先验信息常常缺失。
因此，本研究致力于解决上述问题，聚焦于一种具有潜在分组结构的近似因子模型。该模型刻画了共同因子对落入同一组的个体所产生的同质化影响。研究的目标是在没有任何先验分组信息的情况下，开发一种完全数据驱动的、无监督的分类方法，以识别横截面单位的分组结构，并进行统计推断。该研究探索了载荷同质性如何影响因子分析，以及如何恢复潜在的分组结构。
研究的详细工作流程
本研究的工作流程主要包含以下几个核心步骤：模型设定与初步估计、基于聚类的同质性探索、分组数量的选择、基于分组结构的重新估计，以及最终的推断和预测。
模型设定与初步估计：
研究对象：研究假设观测到的N维时间序列向量 X_t 遵循一个线性因子模型：X_t = Λ F_t + e_t，其中F_t是r维共同因子向量，Λ是N×r的因子载荷矩阵（第i行λ_i是个体i的载荷向量），e_t是特质性误差项。横截面维度N和时间长度T都允许趋于无穷，因子个数r固定但未知。
分组结构假设：核心假设是存在一个对索引集{1, …, N}的划分{G1, …, G{K0}}，使得同一组Gk内的所有个体共享相同的组特异性载荷向量λ{g,k}。分组数量K0有限但未知。
初步估计步骤：首先，使用Bai和Ng（2002）的信息准则（如ICP3）来估计因子数量r̂。然后，利用主成分分析（PCA）初步估计因子载荷矩阵 Λ̂ 和因子序列 F̂。这是标准的高维因子模型估计流程，为后续的聚类分析提供了基础输入。
基于聚类的同质性探索：
聚类算法：本研究采用经典的凝聚层次聚类（Agglomerative Hierarchical Clustering， AHC）算法来探索载荷向量λ_i中的潜在同质性结构。这是首次将AHC算法应用于近似因子模型的同质性探索。
距离度量：为了应用AHC算法，需要定义个体间载荷向量的距离。研究定义了估计载荷向量λ̂_i和λ̂_j之间的L1距离：D̂_ij = (1/r̂) * ||λ̂_i - λ̂_j||_1。该距离可被视为真实距离（经过一个旋转矩阵变换后）D_ij的估计。根据模型假设，同一组内个体的D_ij为0，不同组间个体的D_ij不为0。
聚类过程：算法从一个包含N个单元素簇的集合开始。在每一步，它合并当前所有簇对之间距离最小的两个簇（采用单连接距离，即两个簇中所有个体对之间的最小D̂_ij）。这个过程反复进行，直到剩下预定数量K个簇为止，记为G̃(K) = {G̃_1|K, …, G̃_K|K}。该过程为从N到1的每个可能分组数量K都生成了一条聚类路径。
分组数量的选择：
信息准则构建：由于真实分组数量K0未知，研究提出了一个信息准则来自动选择K。对于AHC算法给出的任一分组G̃(K)，在分组同质性约束下（即组内个体载荷相同），通过约束最小二乘法重新估计载荷，得到Λ̂_{G̃(K)}。然后计算该分组下的拟合优度S(K)。
准则函数：信息准则定义为：IC(K) = log[S(K)] + c * K * ρ{NT}。其中，c是一个数据依赖的调谐常数，ρ{NT}是依赖于N和T的调谐参数。论文建议选择ρ_{NT} = log(min{N, T}) / min{N, T}。
分组数量确定：最终估计的分组数量K̂是使IC(K)最小化的K值（在预设的上限内）。相应地，最终估计的分组结构为Ĝ = G̃(K̂)。
基于分组结构的重新估计与推断：
载荷再估计：在得到估计的分组结构Ĝ后，再次利用组内同质性约束，通过最小二乘法估计组特异性载荷向量λ̂_{g,k}。这被称为“后聚类”载荷估计量。理论证明，在正确识别分组的情况下，该估计量比标准PCA估计量具有更快的收敛速度。
因子再估计：基于新的组特异性载荷估计矩阵Λ̂，可以重新估计因子序列F̂_t，例如通过最小二乘法：F̂_t = (Σ_i λ̂_i λ̂_i’)^{-1} (Σ_i λ̂_i X_it)。这被称为“后聚类”因子估计量。
理论性质：研究在一定的正则性条件下，建立了分组成员估计量、分组数量估计量（通过信息准则）的一致性。同时证明了，在分组结构下重新估计的载荷和因子，相比不利用此信息的标准PCA估计量，获得了更优的收敛速率。
有限样本性能验证：通过蒙特卡洛模拟实验，评估了所提方法在有限样本下的表现，包括分组识别的准确性、信息准则选择分组数量的表现，以及后聚类估计量在估计因子和载荷方面的精度提升。模拟结果表明，所提方法在识别分组结构和估计参数方面具有良好的有限样本性能。
实证应用：研究将所提方法应用于两个经典数据集：Stock和Watson（2009）的美国宏观经济时间序列数据集，以及包含25个投资组合收益的金融市场数据集。通过实证分析展示了该方法在捕捉有意义的组结构（如将同类别经济指标或具有相似风险敞口的投资组合分组在一起）以及提高预测精度方面的实际价值。
研究的主要结果
理论结果：
聚类一致性：定理3.1证明，在已知真实分组数K0的前提下，只要组间最小距离ζ满足一定条件，AHC算法能够以概率趋近于1正确识别所有个体的组别归属。
分组数量选择一致性：定理3.3证明，在满足假设条件（特别是各组规模同阶、调谐参数ρ_{NT}选择合适）下，所提出的信息准则能够以概率趋近于1正确选择真实分组数K0。这意味着最终估计的分组结构Ĝ在概率意义上与真实结构一致。
估计量改进的收敛速率： 载荷估计：定理3.2和3.5表明，在已知真实分组的情况下，组特异性载荷的“预言”估计量λ̂*_{g,k}的收敛速率为√(|G_k| * T)，这比标准PCA估计量的收敛速率min{√N, √T}更快，尤其是当组内个体数|G_k|较大时。后聚类估计量λ̂_i在正确分组下等价于预言估计量。
因子估计：定理3.4表明，后聚类因子估计量F̂_t的收敛速率为√N，这略快于标准PCA估计量的min{√N, T}。这是因为在分组同质性下，载荷参数的维度是固定的（等于组数K0），不随N增加，因此只要N→∞，就能一致估计因子。
极限分布：研究还推导了后聚类因子估计量和载荷估计量（经偏差校正后）的渐近正态分布，为统计推断（如构建置信区间）奠定了基础。
模拟结果：
聚类性能：在多种数据生成过程（不同噪声比、不同组间距离、误差项独立或序列相关）下，论文比较了AHC（TW）、K均值（KM）和顺序二分分割（SBS）算法的表现。结果表明，TW方法在分组数量选择准确率（PCE）和聚类准确性（NMI）上总体优于KM和SBS，尤其是在样本量（特别是时间长度T）增加时。TW的计算效率也较高。
估计精度提升：模拟结果显示，后聚类的载荷估计误差（postc-MADΛ）显著低于聚类前的PCA估计误差（prec-MADΛ）。后聚类的因子估计误差（postc-MADF）也略优于聚类前的估计误差（prec-MADF）。偏差校正进一步改善了载荷估计的精度。这些经验结果与理论上的收敛速率改进相一致。
推断有效性：基于渐近正态理论构建的因子和载荷的置信区间，其覆盖概率（CP）在大多数模拟设定下接近名义水平95%，验证了所提推断方法的有效性。
实证结果：
宏观经济数据：将方法应用于108个美国宏观经济序列，自动将其分为10组。这10组与Stock和Watson（2009）根据经济含义手动划分的8个类别有高度关联。例如，大多数股票市场指数被归入同一组。同时，该方法也捕捉到了不同经济类别变量之间的经济联系，例如将几种债券收益率和联邦基金利率归为一组，这可能揭示了金融市场对货币政策的反应和投资者偏好的关联。
投资组合数据：与Guo和Li（2022）的半参数因子模型相比，本研究完全数据驱动的因子（通过PCA从收益序列提取）捕获了更多信息，获得了更高的模型R²。在分组结果上，本方法发现了更多投资组合之间的相似性（如银行和保险组合），并将它们合并为一组，而Guo和Li（2022）的模型中它们是独立组。这种更精确的分组带来了预测精度的提升，本模型的样本外预测误差平均约为Guo和Li（2022）模型的一半。
研究的结论与价值
本研究的核心结论是，在近似因子模型中识别并利用载荷向量的潜在分组同质性结构，不仅可以通过数据驱动的方式发现有意义的经济或金融分类，而且能够显著提高因子和载荷的估计效率，并最终提升模型的预测能力。
其科学价值在于： 1. 方法论贡献：首次系统性地提出了针对近似因子模型的、完全数据驱动的同质性探索框架。将经典的AHC聚类算法与一个定制化的信息准则相结合，解决了分组发现和分组数量选择的难题。 2. 理论贡献：在因子为潜变量且需估计的复杂设定下，建立了分组识别、参数估计的一致性及渐近分布理论，丰富了因子模型的理论体系。证明了利用同质性结构可以带来估计效率的实质性提升。 3. 应用价值：为经济学家和金融分析师提供了一套实用的工具，可以从高维时间序列数据中自动识别具有相似因子暴露的个体群组，从而更好地理解经济动态、资产定价的共性，并构建更精确的预测模型。
研究的亮点
研究问题新颖：首次在近似因子模型的框架内系统性研究载荷的同质性追求问题，填补了文献空白。与之前依赖先验分组或可观测协变量的研究不同，本研究是完全无监督和数据驱动的。
方法创新与实用性：巧妙地将成熟的聚类算法（AHC）与因子模型估计流程相结合，并设计了适用于本模型的信息准则。方法易于在标准统计软件中实现，具有良好的实用性和可操作性。
理论挑战与突破：由于因子是潜变量且存在估计误差，为分组识别的一致性证明和“后聚类”估计量的极限分布推导带来了额外的技术挑战，论文成功地解决了这些挑战，体现了理论深度。
全面的验证：研究不仅提供了严格的理论证明，还通过广泛的蒙特卡洛模拟验证了有限样本性能，并通过两个经典的实证数据集展示了方法的实际意义和优越性，形成了从理论到模拟再到应用的完整证据链。
明确的改进效果：无论是在理论收敛速率上，还是在模拟与实证的精度指标上，都明确展示了利用分组同质性信息所带来的估计与预测性能的显著提升。
其他有价值的内容
论文在引言和文献综述部分清晰地梳理了因子模型的发展脉络以及面板数据模型中同质性追求的相关工作，将本研究置于更广阔的学术背景中，突出了其与相关研究（如Guo和Li（2022）的半参数因子模型）的区别与联系，强调了本研究的独特贡献。此外，论文还讨论了在更宽松的均匀概率边界条件下（如允许N以指数级快于T增长），聚类一致性仍然可以保持，这扩展了方法的适用范围。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问