大型高维鲁棒因子分析中的组结构识别与估计研究:一种基于聚类的鲁棒两阶段方法
本报告旨在向中文研究界介绍一篇发表于《Electronic Journal of Statistics》的研究论文。该论文题为“Large-Dimensional Robust Factor Analysis with Group Structure”,由山东大学的Yong He, Xiaoyang Ma, Xingheng Wang和Yalin Wang共同完成。
一、 研究的学术背景与目标
本研究隶属于计量经济学、统计学和金融计量学交叉领域,核心关注大维近似因子模型。因子模型作为强大的降维工具,通过少数潜在公共因子解释众多观测变量间的关联结构,在宏观经济学、金融学等领域有广泛应用。传统的因子分析通常通过主成分分析(PCA)进行估计,但这种方法存在两个主要局限:首先,PCA本质上是最小二乘法,对异常值和厚尾数据敏感,而宏观经济和金融数据普遍呈现厚尾特征;其次,在大维情境下,每个截面个体对应一个独特的因子载荷向量,导致待估参数数量巨大,估计收敛速度慢。为解决参数维度过高问题,研究者常假设载荷矩阵具有某种稀疏结构。其中,组结构(Group Structure)是一种重要的稀疏形式,即假设属于同一组的个体对公共因子的反应是同质的,共享相同的载荷向量。然而,在现实中,组结构通常是未知的,需要从数据中识别。
先前的研究,如Tu and Wang (2023),首次在因子模型中提出了数据驱动的无监督分组方法,但他们的方法基于PCA估计,要求数据具有有限八阶矩,这在厚尾数据下难以满足。而针对厚尾数据,He et al. (2022) 提出了鲁棒两阶段(Robust Two-Step, RTS)估计方法,基于椭圆分布框架,利用空间肯德尔τ矩阵(Spatial Kendall‘s Tau Matrix)进行估计,仅需有限二阶矩条件,对厚尾数据更为稳健。
因此,本研究的目标在于整合上述两个研究方向:在数据同时存在组结构和厚尾性的情况下,提出一套稳健的因子和因子载荷估计方法。具体而言,研究旨在:1)利用RTS方法作为初始估计,以应对厚尾性;2)在此基础上,通过聚类算法和信息准则识别未知的组结构;3)基于识别出的组结构重新估计载荷和因子,并证明其在理论上的优良性质(如一致性、更高的估计效率)和在有限样本下的优异表现。
二、 研究方法与详细流程
本研究的方法论流程是一个多步骤的迭代估计过程,主要包括三个核心步骤,构成了一个完整的“鲁棒因子分析(RFA)与组结构识别”算法。
步骤一:鲁棒初始估计(应对厚尾性) 此步骤的核心是获取对异常值稳健的因子和载荷初始估计值,为后续的聚类分析提供可靠输入。 1. 研究对象与模型设定:研究假设观测数据 ({y_{it}}) 服从大维近似因子模型:(y_t = \Lambda f_t + \epsilon_t),其中 (\Lambda) 是 (n \times m) 的载荷矩阵,(f_t) 是 (m \times 1) 的公共因子向量,(\epsilon_t) 是特质误差。关键假设是 ((f_t^\top, \epsilon_t^\top)^\top) 服从椭圆分布,该分布族包含t分布等厚尾分布,且仅需有限二阶矩存在。 2. 核心方法——空间肯德尔τ矩阵与RTS估计:这是本研究的第一个技术关键点。对于椭圆分布向量,其协方差矩阵与空间肯德尔τ矩阵具有相同的特征空间。空间肯德尔τ矩阵的定义基于数据点对之间的标准化差异,对异常值不敏感。样本估计形式为一个二阶U统计量: [ \hat{K}y = \frac{2}{T(T-1)} \sum{t < s} \frac{(y_t - y_s)(y_t - y_s)^\top}{|y_t - y_s|^2_2}. ] 3. 估计流程: * 载荷初始估计:计算样本空间肯德尔τ矩阵 (\hat{K}_y),取其前 (m) 个特征向量(乘以 (\sqrt{n}))作为载荷矩阵的初始估计 (\tilde{\Lambda})。因子个数 (m) 可通过现有稳健方法(如Yu et al., 2019)一致估计。 * 因子初始估计:给定 (\tilde{\Lambda}),通过截面回归(最小二乘)得到因子的初始估计 (\tilde{f}_t = ( \tilde{\Lambda}^\top \tilde{\Lambda})^{-1} \tilde{\Lambda}^\top y_t),并标准化使得 (\tilde{\Lambda}^\top \tilde{\Lambda}/n = I_m)。
步骤二:组结构识别(数据驱动分组) 此步骤利用上一步得到的稳健初始估计 (\tilde{\lambda}_i)(载荷矩阵的第i行),通过聚类算法识别潜在的组结构。 1. 距离度量:首先定义个体间载荷向量的距离。对于任意个体 (i) 和 (j),采用 (L1) 范数距离:(\hat{\Delta}{ij} = \frac{1}{m} |\tilde{\lambda}_i - \tilde{\lambda}_j|1)。该距离是真实距离(经过一个旋转矩阵 (H) 变换后)的一致估计。 2. 聚类算法——凝聚层次聚类:采用凝聚层次聚类(Agglomerative Hierarchical Clustering, AHC)算法,这是一种经典的自底向上聚类方法。 * 初始化:将每个个体视为一个单独的类,共 (n) 类。初始距离矩阵为 (\hat{\Delta})。 * 迭代合并:在每一步,找到当前距离矩阵中非对角线上的最小元素,将对应的两个类合并为一个新类。 * 更新距离:合并后,使用完全连接(Complete Linkage)方法计算新类与其他类之间的距离,即两类间所有个体对距离的最大值。更新距离矩阵。 * 输出:重复合并与更新步骤,直到类的数量减少至一个预设的数值 (k)。此时得到的分类记为 (\tilde{\mathcal{G}}(k) = {\tilde{g}{1|k}, …, \tilde{g}_{k|k}})。 3. 组数选择——信息准则:真实的组数 (k_0) 是未知的。为此,研究者设计了一个信息准则(IC)来自动选择 (k0)。 * 对于AHC算法在给定 (k) 下输出的分组 (\tilde{\mathcal{G}}(k)),施加组内同质约束(即组内个体载荷相等),通过约束最小二乘重新估计组特异性载荷 (\hat{\lambda}{i|\tilde{\mathcal{G}}(k)})(公式2.7)。 * 定义拟合优度度量 (s(k) = (nT)^{-1} \sum{i,t} (y{it} - \hat{\lambda}_{i|\tilde{\mathcal{G}}(k)}^\top \tilde{f}t)^2)。 * 构建信息准则:(IC(k) = \log[s(k)] + k \cdot \rho),其中 (\rho) 是一个趋于0的调节参数。 * 组数估计:选择使 (IC(k)) 最小的 (k) 作为组数估计 (\hat{k} = \arg\min{1 \le k \le \bar{k}} IC(k))。最终,将 (\hat{k}) 代入AHC算法,得到最终的分组结果 (\hat{\mathcal{G}})。
步骤三:基于组结构的再估计(提升效率) 在识别出组结构 (\hat{\mathcal{G}}) 后,研究进行最终的精炼估计,以利用组同质性信息提升估计效率。 1. 组特异性载荷再估计:使用步骤二中得到的分组 (\hat{\mathcal{G}}) 和约束最小二乘(公式2.6),重新估计每个组的共同载荷向量,得到最终的载荷矩阵估计 (\hat{\Lambda})。 2. 因子再估计:基于新的组特异性载荷估计 (\hat{\Lambda}),再次通过最小二乘(公式2.11)重新估计因子:(\hat{f}_t = (\sum_i \hat{\lambda}_i \hat{\lambda}_i^\top)^{-1} (\sum_i \hat{\lambda}i y{it}))。
三、 主要研究结果与发现
研究的理论结果和数值模拟共同支撑了所提方法的有效性。
理论结果: 1. 初始估计的一致性(命题1、2):在椭圆分布假设(仅需有限二阶矩)下,证明了RTS方法得到的初始载荷估计 (\tilde{\lambda}i) 以速率 (\delta{nt}^{-1})(其中 (\delta_{nt} = \min{\sqrt{n}, \sqrt{T}}))收敛到其真实值(经过旋转)。更重要的是,命题2首次给出了个体载荷估计的均匀收敛速率:(\max_i |\tilde{\lambda}_i - H^\top \lambda_i|_2 = O_p(n^{-1⁄2}) + O_p(\sqrt{n/T}))。这一结果是后续证明聚类一致性的关键。 2. 聚类一致性(定理3.1):在已知真实组数 (k_0) 的前提下,假设组间最小距离 (\zeta) 满足 (\max{\sqrt{n/T}, n^{-1⁄2}} = o(\zeta)),则证明AHC算法能够以概率趋于1地正确识别所有个体的组别。这意味着只要组间信号足够强(相对于估计误差),数据驱动的聚类可以完美恢复真实分组。 3. “神谕”估计量的高效性(定理3.2):假设已知真实分组,那么基于组结构约束得到的“神谕”载荷估计量 (\hat{\lambda}i^*) 的收敛速率提升为 (b{nt}(k)^{-1}),其中 (b_{nt}(k) = \min{\sqrt{|g_k|}, \sqrt{T}})。由于 (|gk|) 与 (n) 同阶(假设7(a)),这比忽略组结构的初始估计速率 (\delta{nt}^{-1}) 更快,证明了利用组信息能带来效率增益。 4. 组数选择的相合性(定理3.3):在更一般的矩条件(假设4-6)下,证明了信息准则 (IC(k)) 能够以概率趋于1地正确选择真实组数 (k_0)。并且,最终基于估计组数 (\hat{k}) 得到的载荷估计量 (\hat{\Lambda}) 与“神谕”估计量 (\hat{\Lambda}^*) 相等(依概率),从而继承了“神谕”估计量的优良性质。
数值模拟结果: 研究通过两个模拟例子和一个实证分析验证了方法。 1. 模拟例一(厚尾数据与组结构):数据生成过程采用偏斜t分布,设置4个潜在组。结果表明:(a) 在厚尾数据下,基于RTS初始估计的分组方法(文中称为RTS)在各方面(组数识别频率、归一化互信息NMI、纯度Purity、共同成分估计的均方误差MSE)均显著优于基于PCA初始估计的方法(文中称为PCA)。(b) 组间距离 (\delta) 越大(异质性越强),组数识别越准确。© 增加样本量 (n) 或时间长度 (T) 能提升所有方法的性能。(d) 分组后的估计(post-MSE)误差始终小于分组前的估计(pre-MSE),证实了组结构再估计的效率提升。 2. 模拟例二(组数选择评估):在正态误差下,设置不同组数((k_0=1,2,3))和不同信噪比。结果显示,即使在噪声较大时,信息准则也能很好地识别真实组数,且RTS与PCA方法表现相当。这说明了所提信息准则的普适性。 3. 实证分析(美国宏观经济数据):应用于包含41个变量、300个月度观测的美国宏观经济数据集。首先,QQ图显示数据具有厚尾特征。其次,载荷估计的核密度图呈现明显的多峰结构,暗示了组结构的存在。信息准则识别出6个组。分组结果具有经济意义:例如,短期利率相关的变量被聚为一组,长期利率相关的变量被聚为另一组;影响GDP的指数类变量(如CPI、股价指数)也被聚在一起。最后,通过滚动预测方案比较了分组前后的预测均方误差,结果显示:无论是基于PCA还是RTS,分组后的预测误差均显著小于分组前;且在厚尾数据背景下,RTS方法的预测误差整体小于PCA方法,有力证明了本研究方法在现实数据中的应用优势。
四、 结论、价值与亮点
结论:本研究成功地提出并验证了一个集成框架,用于在大型高维因子模型中同时处理厚尾数据和未知的组结构。该框架以稳健的RTS估计为起点,通过AHC聚类和定制化信息准则无监督地识别组别和组数,最后利用识别的组结构进行再估计,从而获得更精确、更高效的因子和载荷估计。
研究的价值: 1. 科学价值:在理论上,将鲁棒估计与组结构识别有机结合,放宽了现有分组因子模型对矩条件的要求(从有限八阶矩降至有限二阶矩),拓展了模型的应用范围。提供了个体载荷估计的均匀收敛速率,并严格证明了聚类一致性及组数选择相合性,为因子模型领域的理论做出了贡献。 2. 应用价值:为经济学、金融学等领域中广泛存在的、具有厚尾特征和潜在分组规律的高维时间序列数据(如不同行业股票收益率、各地区宏观经济指标)提供了一套行之有效的分析工具。该方法能自动发现数据中隐藏的同质群体,并基于此给出更稳健的因子提取和预测。
研究的亮点: 1. 方法创新性:首创性地将针对厚尾数据的鲁棒两阶段估计与针对降维的凝聚层次聚类分组方法相结合,解决了同时存在两大挑战(厚尾、未知组结构)的因子分析问题。 2. 理论贡献:首次证明了个体化RTS载荷估计的均匀收敛性,这是实现聚类一致性的基石。证明了在组结构下,再估计的载荷具有更快的收敛速率(效率增益)。 3. 实用性强:整个算法流程清晰,可完全由数据驱动,无需事先分组信息。模拟和实证分析全面展示了其在各种场景下的优越性能和稳健性,特别是在厚尾数据下相较于传统PCA方法的明显优势。 4. 跨领域意义:研究所用的技术(椭圆分布、空间肯德尔τ、聚类算法)具有通用性,为矩阵因子模型、包含全局与局部因子的模型等未来研究方向提供了可借鉴的思路。